Repository: matyushkin/ds Branch: main Commit: edf19baa4501 Files: 70 Total size: 187.4 KB Directory structure: gitextract_alfc69j7/ ├── .claude/ │ ├── claude.json │ ├── commands/ │ │ ├── add-resource.md │ │ ├── check-links.md │ │ └── update-readme.md │ └── skills/ │ ├── add-article.md │ ├── add-book.md │ ├── add-course.md │ ├── add-dataset.md │ ├── add-software.md │ ├── rebuild-readme.md │ └── validate-links.md ├── .gitignore ├── LICENSE ├── README.md ├── books/ │ ├── books_big_data.md │ ├── books_computer_vision.md │ ├── books_data_science.md │ ├── books_finance.md │ ├── books_geospatial.md │ ├── books_llm.md │ ├── books_machine_learning.md │ ├── books_mlops.md │ ├── books_neural_networks.md │ ├── books_nlp.md │ └── books_time_series.md ├── courses/ │ ├── courses_big_data.md │ ├── courses_computer_vision.md │ ├── courses_data_science.md │ ├── courses_finance.md │ ├── courses_geospatial.md │ ├── courses_llm.md │ ├── courses_machine_learning.md │ ├── courses_mlops.md │ ├── courses_neural_networks.md │ ├── courses_nlp.md │ └── courses_time_series.md ├── data/ │ ├── data_big_data.md │ ├── data_computer_vision.md │ ├── data_data_science.md │ ├── data_finance.md │ ├── data_geospatial.md │ ├── data_llm.md │ ├── data_machine_learning.md │ ├── data_mlops.md │ ├── data_neural_networks.md │ ├── data_nlp.md │ └── data_time_series.md ├── main_readme_constructor.ipynb ├── social/ │ ├── social_big_data.md │ ├── social_computer_vision.md │ ├── social_data_science.md │ ├── social_finance.md │ ├── social_geospatial.md │ ├── social_llm.md │ ├── social_machine_learning.md │ ├── social_mlops.md │ ├── social_neural_networks.md │ ├── social_nlp.md │ └── social_time_series.md └── software/ ├── software_big_data.md ├── software_computer_vision.md ├── software_data_science.md ├── software_finance.md ├── software_geospatial.md ├── software_llm.md ├── software_machine_learning.md ├── software_mlops.md ├── software_neural_networks.md ├── software_nlp.md └── software_time_series.md ================================================ FILE CONTENTS ================================================ ================================================ FILE: .claude/claude.json ================================================ { "project": { "name": "Data Science Resources", "description": "Коллекция бесплатных ресурсов по Data Science и Machine Learning", "version": "1.0.0", "repository": "https://github.com/matyushkin/ds", "author": "Leo Matyushkin", "license": "MIT", "topics": [ "data-science", "machine-learning", "neural-networks", "computer-vision", "geospatial", "nlp", "finance", "big-data" ] }, "skills": { "directory": ".claude/skills" }, "commands": { "directory": ".claude/commands" }, "settings": { "language": "ru", "autoCommit": false, "defaultBranch": "main" } } ================================================ FILE: .claude/commands/add-resource.md ================================================ --- description: Interactively add a new resource (book, course, dataset, software, or article) to the repository --- # Add Resource Command You are helping the user add a new resource to the Data Science resources repository. ## Steps to Follow 1. **Ask what type of resource** they want to add: - Book - Course - Dataset - Software (library/framework/tool) - Article/Blog Post 2. **Ask for the topic category:** - Data Science (general) - Machine Learning - Neural Networks - Computer Vision - Geospatial Data - Natural Language Processing - Financial Data Analysis - Big Data 3. **Collect required information** based on resource type: **For Books:** - Title (English and/or Russian) - Author(s) - Publication year - Link (if freely available) - Brief description in Russian - Difficulty level **For Courses:** - Course title - Platform (Coursera, Stepik, YouTube, edX, etc.) - Instructor - Language - Link - Description in Russian - Difficulty level - Free or paid **For Datasets:** - Dataset name - Source/Platform - Link - Description in Russian - Size and format - License (if relevant) **For Software:** - Name - Programming language - GitHub/Official site link - Documentation link - Description in Russian - Main features **For Articles:** - Title - Author - Source (Medium, Habr, etc.) - Link - Description in Russian - Language - Publication date (if relevant) 4. **Read the appropriate file** using the Read tool to understand the existing format 5. **Add the resource** using the Edit tool, maintaining the existing format and structure 6. **Confirm with the user** what was added and to which file ## Important Notes - Always read the target file first to understand the format - Descriptions should be in Russian (repository content language) - Maintain consistent formatting with existing entries - Ask for clarification if any required information is missing ================================================ FILE: .claude/commands/check-links.md ================================================ --- description: Validate all links in markdown files to check for broken or inaccessible URLs --- # Check Links Command You are helping validate links in the Data Science resources repository to identify broken or inaccessible URLs. ## Steps to Follow 1. **Determine scope:** Ask the user what they want to check: - All files in the repository - Specific directory (books, courses, data, social, software) - Specific topic (Data Science, ML, CV, NLP, etc.) - Specific file 2. **Find target files:** - Use Glob tool to locate markdown files based on scope - Example: `books/*.md` for all books, or `**/*.md` for all files 3. **Extract links:** - Read each file using Read tool - Extract all URLs matching patterns: - `http://...` and `https://...` - Markdown links: `[text](url)` - Create a deduplicated list of URLs to check - Keep track of which file(s) contain each URL 4. **Validate links:** For each unique URL: - Use `curl -I -L --max-time 10 ` to check HTTP status - Or use `wget --spider --timeout=10 ` - Categorize results: - ✓ Working (HTTP 200) - ⚠ Redirected (HTTP 301/302) - ✗ Broken (HTTP 4xx/5xx) - ⏱ Timeout - 🚫 Blocked/Other error Important: Add small delays between requests to avoid rate limiting 5. **Generate validation report:** Create a structured report with: ``` Link Validation Report ====================== Generated: [timestamp] Scope: [what was checked] Summary: - Total unique URLs: X - Working: X (XX%) - Redirected: X (XX%) - Broken: X (XX%) - Timeout/Error: X (XX%) Broken Links: [For each broken link:] - URL: Status: Found in: : (if available) Redirected Links: [For each redirected link:] - Original: Redirects to: Found in: Timeout/Blocked: [List of URLs that couldn't be checked] ``` 6. **Suggest actions:** - For broken links: suggest removal or finding alternatives - For redirects: suggest updating to final URL - For timeouts: suggest manual review 7. **Ask user about fixes:** - Do they want to update redirected links? - Do they want to remove broken links? - Do they want to save the report to a file? ## Important Notes - Respect rate limits - add delays between checks (e.g., 1-2 seconds) - Some sites may block automated requests - document these - Don't modify files without explicit user confirmation - Save the validation report for future reference - Consider checking in batches to avoid overwhelming servers - HEAD requests are more efficient than GET requests ## Implementation Tips - Use a bash loop with curl for link checking - Cache results to avoid rechecking the same URL - Consider creating a `.link-check-cache.json` file - Provide progress updates for large validation runs ================================================ FILE: .claude/commands/update-readme.md ================================================ --- description: Update the main README.md file to reflect current repository structure --- # Update README Command You are helping update the main README.md file to reflect the current state of the Data Science resources repository. ## Steps to Follow 1. **Check for automated tool:** - Look for `main_readme_constructor.ipynb` in the root directory - If it exists, ask the user if they want to use it or do a manual update 2. **If using the Jupyter notebook:** - Read the notebook to understand its logic - Execute it: `jupyter nbconvert --to notebook --execute main_readme_constructor.ipynb` - Verify the output - Ask user to confirm before applying changes 3. **If doing manual update:** a. **Read current README.md** to understand the structure b. **Scan all resource directories:** - Use Glob to find all files in: `books/`, `courses/`, `data/`, `social/`, `software/` - Organize by category c. **Build the resource table:** - Create markdown table with Topics as rows and Resource Types as columns - Each cell should link to the corresponding markdown file - Topics: Data Science, ML, Neural Networks, CV, Geospatial, NLP, Finance, Big Data - Resource Types: Courses, Books, Data, Social, Software d. **Preserve existing sections:** - Introduction/Welcome message - How to contribute guidelines - Community links (Telegram, etc.) - License information - Author/Maintainer information e. **Update the README:** - Use Write tool to update README.md - Maintain Russian language for text - Keep existing style and emojis if present 4. **Verify the result:** - Read the updated README.md - Check that all links are correctly formatted - Ensure table renders properly 5. **Inform the user:** - Show a summary of what was updated - Highlight any new resources added to the table ## Important Notes - Preserve the existing writing style and tone - Maintain Russian language throughout - Ensure all internal links work correctly - Keep the table structure clear and readable - Don't remove any existing sections without user confirmation ================================================ FILE: .claude/skills/add-article.md ================================================ # Add Article Skill ## Description This skill helps add a new article, blog post, or online publication to the appropriate section of the repository. ## Instructions for Claude When a user wants to add an article, follow these steps: 1. **Determine the article category:** - Data Science (general) → `social/social_data_science.md` - Machine Learning → `social/social_machine_learning.md` - Neural Networks → `social/social_neural_networks.md` - Computer Vision → `social/social_computer_vision.md` - Geospatial Data → `social/social_geospatial.md` - Natural Language Processing → `social/social_nlp.md` - Big Data → `social/social_big_data.md` 2. **Collect article information:** - Article title (in original language) - Author(s) - Publication source (Medium, Habr, personal blog, etc.) - Publication date (if relevant) - Link to the article - Brief description (in Russian - repository language) - Article language (Russian/English) - Main topics covered - Difficulty level (beginner/intermediate/advanced) 3. **Read the existing file:** Use the Read tool to read the corresponding file in the `social/` directory 4. **Check for duplicates:** - Search the file content for the article title or URL - If a similar entry is found, inform the user - Ask if they want to: update the existing entry, skip, or add anyway - If no duplicate found, proceed to the next step 5. **Identify the format:** Study the existing entry format in the file and use a similar format 6. **Add the article:** - Use the Edit tool to add the article to the appropriate section - Group by topic, source, or date if the file is organized that way - Maintain consistent formatting 7. **Inform the user:** Show what was added and to which file ## Usage Example User: "Add an article about neural network optimization from Habr to the Neural Networks section" You should: 1. Read `social/social_neural_networks.md` 2. Add the article in the correct format with title, author, link, and description 3. Save the changes 4. Inform the user about the result ## Important Notes - Descriptions should be in Russian (repository content language) - Maintain the existing structure and formatting - Include the article language indicator if different from description - Ensure the article link is accessible - Add publication date if it's relevant for time-sensitive content ## Format Examples Common formats found in social/article files: **Simple article entry:** ```markdown - [Название статьи](https://habr.com/article) – краткое описание ``` **With author and source:** ```markdown - [Название статьи](https://medium.com/article) by Author Name (Medium) – описание ``` **With date:** ```markdown - [Название статьи](https://url) (автор, 2023) – описание статьи ``` **Always match the existing format in the target file.** ================================================ FILE: .claude/skills/add-book.md ================================================ # Add Book Skill ## Description This skill helps add a new book to the appropriate section of the repository. ## Instructions for Claude When a user wants to add a book, follow these steps: 1. **Determine the book category:** - Data Science (general) → `books/books_data_science.md` - Machine Learning → `books/books_machine_learning.md` - Neural Networks → `books/books_neural_networks.md` - Computer Vision → `books/books_computer_vision.md` - Geospatial Data → `books/books_geospatial.md` - Natural Language Processing → `books/books_nlp.md` - Financial Data Analysis → `books/books_finance.md` - Big Data → `books/books_big_data.md` 2. **Collect book information:** - Title (in English and Russian if available) - Author(s) - Publication year - Link to the book (if freely available) - Brief description (in Russian - repository language) - Difficulty level (beginner/intermediate/advanced) 3. **Read the existing file:** Use the Read tool to read the corresponding file in the `books/` directory 4. **Check for duplicates:** - Search the file content for the book title or author - If a similar entry is found, inform the user - Ask if they want to: update the existing entry, skip, or add anyway - If no duplicate found, proceed to the next step 5. **Identify the format:** Study the existing entry format in the file and use a similar format 6. **Add the book:** - Use the Edit tool to add the book to the appropriate section - Maintain consistent formatting - Add the book to a logical section (by level or topic) 7. **Inform the user:** Show what was added and to which file ## Usage Example User: "Add the book 'Python for Data Analysis' by Wes McKinney to the Data Science section" You should: 1. Read `books/books_data_science.md` 2. Add the book in the correct format 3. Save the changes 4. Inform the user about the result ## Important Notes - Descriptions should be in Russian (repository content language) - Maintain the existing structure and formatting - Ensure the book is added to the correct category ## Format Examples Common formats found in book files: **Simple list format:** ```markdown - Автор. Название книги. Издательство, год. ``` **With link:** ```markdown - [Название книги](https://example.com/book.pdf) (автор, год) ``` **With description:** ```markdown - Автор. Название книги. Издательство, год (краткое описание). ``` **Always match the existing format in the target file.** ================================================ FILE: .claude/skills/add-course.md ================================================ # Add Course Skill ## Description This skill helps add a new online course to the appropriate section of the repository. ## Instructions for Claude When a user wants to add a course, follow these steps: 1. **Determine the course category:** - Data Science (general) → `courses/courses_data_science.md` - Machine Learning → `courses/courses_machine_learning.md` - Neural Networks → `courses/courses_neural_networks.md` - Computer Vision → `courses/courses_computer_vision.md` - Geospatial Data → `courses/courses_geospatial.md` - Natural Language Processing → `courses/courses_nlp.md` - Financial Data Analysis → `courses/courses_finance.md` - Big Data → `courses/courses_big_data.md` 2. **Collect course information:** - Course title (in English and/or Russian) - Platform (Coursera, Stepik, YouTube, edX, etc.) - Instructor/Author - Course language (Russian/English) - Link to the course - Brief description (in Russian - repository language) - Difficulty level - Rating (if available) - Is the course free 3. **Read the existing file:** Use the Read tool to read the corresponding file in the `courses/` directory 4. **Check for duplicates:** - Search the file content for the course title or instructor - If a similar entry is found, inform the user - Ask if they want to: update the existing entry, skip, or add anyway - If no duplicate found, proceed to the next step 5. **Identify the format:** Study the existing entry format in the file and use a similar format 6. **Add the course:** - Use the Edit tool to add the course to the appropriate section - Group by platform or difficulty level if the file is organized that way - Maintain consistent formatting 7. **Inform the user:** Show what was added and to which file ## Usage Example User: "Add the course 'Machine Learning' by Andrew Ng on Coursera to the Machine Learning section" You should: 1. Read `courses/courses_machine_learning.md` 2. Add the course in the correct format 3. Save the changes 4. Inform the user about the result ## Important Notes - Descriptions should be in Russian (repository content language) - Maintain the existing structure and formatting - Ensure the course is added to the correct category - Indicate if the course is free or paid ## Format Examples Common formats found in course files: **With platform and rating:** ```markdown - [Название курса](https://stepik.org/course/123) (Stepik, ★4.9) ``` **With description:** ```markdown - [Название курса](https://url) (платформа) – краткое описание курса ``` **With instructor:** ```markdown - [Курс Автора "Название"](https://url) (YouTube, Организация) ``` **Always match the existing format in the target file.** ================================================ FILE: .claude/skills/add-dataset.md ================================================ # Add Dataset Skill ## Description This skill helps add a new dataset or data source to the appropriate section of the repository. ## Instructions for Claude When a user wants to add a dataset, follow these steps: 1. **Determine the dataset category:** - Data Science (general) → `data/data_data_science.md` - Machine Learning → `data/data_machine_learning.md` - Computer Vision → `data/data_computer_vision.md` - Geospatial Data → `data/data_geospatial.md` - Natural Language Processing → `data/data_nlp.md` - Financial Data Analysis → `data/data_finance.md` Note: There may not be separate data files for Neural Networks and Big Data 2. **Collect dataset information:** - Dataset name - Source/Platform (Kaggle, UCI ML Repository, Google Dataset Search, etc.) - Link to the dataset - Brief description (in Russian): what it contains, what tasks it's suitable for - Dataset size (if known) - Data format (CSV, JSON, Images, etc.) - License (if important) - Application area 3. **Read the existing file:** Use the Read tool to read the corresponding file in the `data/` directory 4. **Check for duplicates:** - Search the file content for the dataset name or similar datasets - If a similar entry is found, inform the user - Ask if they want to: update the existing entry, skip, or add anyway - If no duplicate found, proceed to the next step 5. **Identify the format:** Study the existing entry format in the file and use a similar format 6. **Add the dataset:** - Use the Edit tool to add the dataset to the appropriate section - Group by data type or application area - Maintain consistent formatting 7. **Inform the user:** Show what was added and to which file ## Usage Example User: "Add the MNIST dataset to the Computer Vision section" You should: 1. Read `data/data_computer_vision.md` 2. Add the dataset with description and link 3. Save the changes 4. Inform the user about the result ## Important Notes - Descriptions should be in Russian (repository content language) - Maintain the existing structure and formatting - Include relevant metadata (size, format, license) - Ensure the dataset link is accessible ## Format Examples Common formats found in data files: **Simple list with link:** ```markdown - [Dataset Name](https://kaggle.com/dataset) – описание датасета, для каких задач подходит ``` **With metadata:** ```markdown - [Dataset Name](https://url) (формат: CSV, размер: 100MB) – описание ``` **With source:** ```markdown - [Dataset Name](https://url) от Source/Organization – описание ``` **Always match the existing format in the target file.** ================================================ FILE: .claude/skills/add-software.md ================================================ # Add Software Skill ## Description This skill helps add a new library, framework, or tool to the appropriate section of the repository. ## Instructions for Claude When a user wants to add software, follow these steps: 1. **Determine the software category:** - Data Science (general) → `software/software_data_science.md` - Machine Learning → `software/software_machine_learning.md` - Neural Networks → `software/software_neural_networks.md` - Computer Vision → `software/software_computer_vision.md` - Geospatial Data → `software/software_geospatial.md` - Natural Language Processing → `software/software_nlp.md` - Big Data → `software/software_big_data.md` 2. **Collect software information:** - Library/framework/tool name - Programming language (Python, R, Julia, etc.) - Link to GitHub or official website - Link to documentation - Brief description of purpose (in Russian - repository language) - Main features/capabilities - Popularity (GitHub stars, if relevant) - Dependencies or requirements - Usage examples (if available) 3. **Read the existing file:** Use the Read tool to read the corresponding file in the `software/` directory 4. **Check for duplicates:** - Search the file content for the software/library name - If a similar entry is found, inform the user - Ask if they want to: update the existing entry, skip, or add anyway - If no duplicate found, proceed to the next step 5. **Identify the format:** Study the existing entry format in the file and use a similar format 6. **Add the software:** - Use the Edit tool to add to the appropriate section - Group by type (libraries, frameworks, tools) - Maintain consistent formatting - Ensure links are working 7. **Inform the user:** Show what was added and to which file ## Usage Example User: "Add the scikit-learn library to the Machine Learning section" You should: 1. Read `software/software_machine_learning.md` 2. Add the library with description, links to GitHub and documentation 3. Save the changes 4. Inform the user about the result ## Important Notes - Descriptions should be in Russian (repository content language) - Maintain the existing structure and formatting - Include links to both repository and documentation - Mention the programming language - Add relevant metadata (popularity, license) ## Format Examples Common formats found in software files: **Simple library entry:** ```markdown - [Library Name](https://github.com/user/repo) – описание библиотеки (Python) ``` **With documentation:** ```markdown - [Library Name](https://github.com/user/repo) ([docs](https://docs.url)) – описание ``` **With metadata:** ```markdown - [Library Name](https://github.com/user/repo) (Python, ⭐15k) – описание возможностей ``` **Always match the existing format in the target file.** ================================================ FILE: .claude/skills/rebuild-readme.md ================================================ # Rebuild README Skill ## Description This skill helps rebuild the main README.md file from individual markdown files, creating a comprehensive table of contents. ## Instructions for Claude When a user wants to rebuild the README, follow these steps: 1. **Understand the structure:** The repository uses a matrix structure: - **Rows (Topics)**: Data Science, Machine Learning, Neural Networks, Computer Vision, Geospatial, NLP, Finance, Big Data - **Columns (Resource Types)**: Courses, Books, Data, Social, Software - Each cell contains a link to a corresponding markdown file (e.g., `courses/courses_machine_learning.md`) 2. **Check for the Jupyter notebook tool:** Look for `main_readme_constructor.ipynb` in the root directory: - If it exists, this notebook may be used to auto-generate the README - Read the notebook to understand its logic - Consider running it if appropriate: `jupyter nbconvert --to notebook --execute main_readme_constructor.ipynb` 3. **Read existing README.md:** Use the Read tool to understand the current structure and format 4. **Gather all resource files:** - Use Glob tool to find all markdown files in: `books/`, `courses/`, `data/`, `social/`, `software/` - Organize them by category 5. **Build the table structure:** Create a markdown table with: - Header row: | Topic | Courses | Books | Data | Social | Software | - One row per topic area - Each cell contains a link to the corresponding markdown file - Use emojis or icons if present in the original README 6. **Add additional sections:** - Introduction/description - How to contribute - License information - Contact information (Telegram, GitHub) - Any other sections from the original README 7. **Write the new README:** - Use the Write tool to update `README.md` - Ensure proper markdown formatting - Maintain the existing style and tone 8. **Inform the user:** Show what was updated and provide a summary of changes ## Usage Example User: "Rebuild the README to reflect all current resources" You should: 1. Read `main_readme_constructor.ipynb` if it exists 2. Scan all resource directories 3. Create updated table with all categories and links 4. Update README.md 5. Inform the user about the result ## Important Notes - Preserve the existing style and formatting - Maintain Russian language for descriptions - Ensure all links are correctly formatted - Keep the matrix/table structure - Include all metadata (license, contribution guidelines, etc.) - If using the Jupyter notebook, verify its output before applying ================================================ FILE: .claude/skills/validate-links.md ================================================ # Validate Links Skill ## Description This skill helps validate all links in the markdown files to ensure they are accessible and not broken. ## ⚠️ Performance Warning **This skill may take a long time to complete** (minutes to hours) depending on the number of links to check: - A single file: ~1-5 minutes - One directory (e.g., `books/`): ~5-15 minutes - All files in repository: ~30-60+ minutes **Recommendations:** - Start with a smaller scope (single file or directory) for testing - Run during off-hours if checking the entire repository - Be patient - the tool adds delays between requests to respect rate limits - Consider saving the report for future reference ## Instructions for Claude When a user wants to validate links, follow these steps: 1. **Determine scope:** Ask the user if they want to check: - All files in the repository - Specific category (books, courses, data, social, software) - Specific topic (Data Science, ML, CV, NLP, etc.) - Specific file 2. **Find all relevant markdown files:** - Use Glob tool to find markdown files: `**/*.md` - Filter based on the chosen scope 3. **Extract links from markdown files:** - Read each file using the Read tool - Extract all URLs (http:// and https://) - Parse markdown link syntax: `[text](url)` - Create a list of unique URLs to check 4. **Validate links:** For each URL: - Use WebFetch tool to check if the URL is accessible - Note: Some URLs may block automated requests, so handle failures gracefully - Track: accessible, broken (4xx/5xx errors), redirected, timeout - Consider rate limiting to avoid being blocked 5. **Generate report:** Create a summary with: - Total links checked - Number of working links - List of broken links with file locations - List of redirected links - List of timeouts or inaccessible links 6. **Suggest fixes:** For broken links: - Try to find alternatives (Internet Archive, updated URLs) - Suggest removing if permanently dead - Flag for manual review if uncertain 7. **Inform the user:** Provide the validation report and suggested actions ## Usage Example User: "Check all links in the courses directory" You should: 1. Find all files: `courses/*.md` 2. Extract all URLs from these files 3. Validate each URL 4. Generate a report showing working and broken links 5. Suggest fixes for broken links ## Important Notes - Be respectful of rate limits - add delays between checks if needed - Some sites may block automated requests - document these separately - Don't modify files without user confirmation - Provide clear file paths and line numbers for broken links - Consider using HEAD requests instead of GET to be more efficient - Handle authentication-required links appropriately - Document the validation timestamp ## Implementation Tips - Use bash `curl` or `wget` for link checking if WebFetch has limitations - Consider checking in batches to avoid overwhelming servers - Cache results to avoid rechecking the same URL multiple times - Create a validation log file for future reference ================================================ FILE: .gitignore ================================================ # General .DS_Store .AppleDouble .LSOverride # Icon must end with two \r Icon # Thumbnails ._* # Files that might appear in the root of a volume .DocumentRevisions-V100 .fseventsd .Spotlight-V100 .TemporaryItems .Trashes .VolumeIcon.icns .com.apple.timemachine.donotpresent # Directories potentially created on remote AFP share .AppleDB .AppleDesktop Network Trash Folder Temporary Items .apdisk # Claude Code .link-check-cache.json ================================================ FILE: LICENSE ================================================ MIT License Copyright (c) 2020 Leo Matyushkin Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the "Software"), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions: The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software. THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE. ================================================ FILE: README.md ================================================ # ds 👨‍🔬 In Russian: Обновляемая структурированная подборка бесплатных ресурсов по тематикам Data Science и Machine Learning: курсы, открытые базы данных и датасеты, источники информации и т. д. В таблице строки соответствуют различным областям Data Science, столбцы – источникам информации, на пересечении – ссылки на внутренние README-файлы. Чтобы дополнить подборку делайте пул-реквесты или пишите в телеграм-чат ([@matyushkin_chat](https://t.me/matyushkin_chat)). ## Сводная таблица Разделы | 👨‍🏫 Курсы | 📚 Книги | 📊 Данные | 🙋‍♂️ Посты | ✊ Софт --- | --- | --- | --- | --- | --- Общие вопросы Data Science | [Курсы по общим вопросам Data Science](courses/courses_data_science.md) | [Подборки книг по различным тематикам Data Science](books/books_data_science.md) | [Открытые данные](data/data_data_science.md) | [Издания, посвященные общим вопросам Data Science](social/social_data_science.md) | [Программное обеспечение для общих задач Data Science](software/software_data_science.md) Машинное обучение | [Курсы по машинному обучению](courses/courses_machine_learning.md) | [Книги по машинному обучению](books/books_machine_learning.md) | [Данные для оценки моделей машинного обучения](data/data_machine_learning.md) | [Другие источники по классическому Machine Learning](social/social_machine_learning.md) | [Библиотеки и репозитории для машинного обучения](software/software_machine_learning.md) Нейронные сети | [Курсы по нейронным сетям](courses/courses_neural_networks.md) | [Книги по нейронным сетям](books/books_neural_networks.md) | [Данные для задач нейронных сетей](data/data_neural_networks.md) | [Источники, посвященные вопросам нейронных сетей и глубокого обучения](social/social_neural_networks.md) | [Библиотеки и фреймворки для нейросетей](software/software_neural_networks.md) Компьютерное зрение | [Курсы по компьютерному зрению](courses/courses_computer_vision.md) | [Книги по компьютерному зрению](books/books_computer_vision.md) | [Открытые данные для задач компьютерного зрения](data/data_computer_vision.md) | [Источники, посвященные вопросам компьютерного зрения](social/social_computer_vision.md) | [Библиотеки по Computer Vision](software/software_computer_vision.md) Геоданные | [Курсы по анализу геоданных](courses/courses_geospatial.md) | [Книги по обработке геоданных](books/books_geospatial.md) | [Источники геоданных](data/data_geospatial.md) | [Публикации, посвященные геоданным](social/social_geospatial.md) | [Библиотеки для работы с геоданными](software/software_geospatial.md) Обработка естеств. языка | [Курсы по обработке ОЕЯ](courses/courses_nlp.md) | [Книги по ОЕЯ](books/books_nlp.md) | [Данные по филологии и лингвистике](data/data_nlp.md) | [Источники, посвященные вопросам ОЕЯ](social/social_nlp.md) | [Библиотеки для ОЕЯ](software/software_nlp.md) Анализ финансовых данных | [Курсы по анализу финансовых данных](courses/courses_finance.md) | [Книги по анализу финансовых данных](books/books_finance.md) | [Открытые источники и базы данных с экономической и правовой информацией](data/data_finance.md) | [Источники по финансам](social/social_finance.md) | [ПО для анализа финансовых данных](software/software_finance.md) Big Data | [Курсы по Big Data](courses/courses_big_data.md) | [Книги по Big Data](books/books_big_data.md) | [Открытые данные для Big Data](data/data_big_data.md) | [Источники, посвященные Big Data](social/social_data_science.md) | [Программы и библиотеки для работы с большими данными](software/software_big_data.md) LLM и генеративный ИИ | [Курсы по LLM](courses/courses_llm.md) | [Книги по LLM](books/books_llm.md) | [Данные для LLM](data/data_llm.md) | [Источники по LLM](social/social_llm.md) | [Инструменты для LLM](software/software_llm.md) MLOps | [Курсы по MLOps](courses/courses_mlops.md) | [Книги по MLOps](books/books_mlops.md) | [Данные для MLOps](data/data_mlops.md) | [Источники по MLOps](social/social_mlops.md) | [Инструменты для MLOps](software/software_mlops.md) Временные ряды | [Курсы по временным рядам](courses/courses_time_series.md) | [Книги по временным рядам](books/books_time_series.md) | [Данные для временных рядов](data/data_time_series.md) | [Источники по временным рядам](social/social_time_series.md) | [Инструменты для временных рядов](software/software_time_series.md) ================================================ FILE: books/books_big_data.md ================================================ # Книги по Big Data ## Основные книги ### Русский - Алекс Горелик. Корпоративное озеро больших данных. Новый подход к использованию Big Data и Data Science в бизнесе. Бомбора, 2023. - Высоконагруженные приложения. Программирование, масштабирование, поддержка. Питер, 2022. - Су К., Ын А. Теоретический минимум по Big Data. Всё что нужно знать о больших данных. Питер, 2019. - Ульман Д. Д., Раджараман А., Лесковец Ю. Анализ больших наборов данных. ДМК Пресс, 2016. ### English - – бесплатная онлайн-книга по анализу больших данных ## Python ### English - Big Data Analysis with Python. Packt Publishing, 2019. Рассматривается связка Python + Spark для больших данных - Wolohan J. T. Mastering Large Datasets with Python. Parallelize and Distribute Your Python Code-Manning. Manning, 2020. ## Hadoop ### English - Garry Turkington. Hadoop Beginner's Guide. Packt Publishing, 2024. - Лэм Чак. Hadoop в действии. ДМК Пресс, 2019. - Sridhar Alla. Big Data Analytics with Hadoop 3. Packt`, 2018. - Pro Hadoop Data Analytics: Designing and Building Big Data Systems using the Hadoop Ecosystem. Apress, 2017. - Dipayan Dev. Deep Learning with Hadoop. Packt Publishing, 2017. - Hadoop Big Data Interview Questions You'll Most Likely Be Asked. 2017. - Bengfort, Kim. Data Analytics with Hadoop. 2016. - Antony B., Boudnik K., Adams C., Shao B., Lee C., Sasaki K`. Professional Hadoop. Wrox, 2017 - White T. Hadoop: The Definitive Guide. Четвертое издание 2015 г. есть в русском переводе под названием . ## Spark ### Русский - Тандон А. и др. Расширенная аналитика с PySpark. БХВ, 2023. - Jean-Georges Perrin. Spark in Action, Second Edition. 2020. Переводное издание: Перрен Жан. Spark в действии. ДМК Пресс, 2021. - Сэнди Риза, Ури Лезерсон, Шон Оуэн, Джош Уиллс. Spark для профессионалов. Современные паттерны обработки больших данных. Питер, 2017 - Карау Х., Захария М., Венделл П., Конвински Э. Изучаем Spark. Молниеносный анализ данных. ДМК Пресс, 2015. ### English - Rachel Warren, Holden Karau. High Performance Spark ================================================ FILE: books/books_computer_vision.md ================================================ # Книги по компьютерному (машинному) зрению (Computer Vision) ## Книги по Computer Vision на Python ### Русский - Adrian Kaehler, Gary Bradski. Изучаем OpenCV 3 (Learn OpenCV 3). Питер, 2018. ### English - Adrian Rosebrock. Deep Learning for Computer Vision with Python. 2017. ## Книги по Computer Vision на C++ ### English - Adrian Kaehler, Gary Bradski. Learning OpenCV 3. O'Reilly Media, 2016. ## Книги по Computer Vision на Java ### English - [OpenCV 3 Computer Vision with Java](https://opencv-java-tutorials.readthedocs.io/en/latest/) ## Книги по Computer Vision на LabVIEW ### English ## Научно популярные книги о биологическом и компьютерном зрении ### Русский - Авербах И. Б., Грудзинская Г. П. Зрение и образ. ЛКИ, 2008. ================================================ FILE: books/books_data_science.md ================================================ # Книги по общим вопросам Data Science ## Смешанные подборки книг по различным тематикам Data Science ### English - [100 бесплатных книг по Data Science](https://www.learndatasci.com/free-data-science-books/) (англ.) - [Бесплатные электронные книги по Data Science издательства O'Reilly](https://www.oreilly.com/data/free/archive.html) ## Научно-популярные книги о Data Science (и просто около) ### Русский - Сейновски Т. Антология машинного обучения: важнейшие исследования в области ИИ за последние 60 лет. Бомбора (Эксмо). 2022. - Шумский С. А. Воспитание машин. Новая история разума. 2021. - Фрай Х. Hello World. Как быть человеком в эпоху машин. АСТ: CORPUS, 2021. - Рассел С. Совместимость. как контролировать искусственный интеллект. Альпина Диджитал, 2021. - Лекун Я. Как учится машина: Революция в области нейронных сетей и глубокого обучения. Альпина PRO, 2021. - Хэнд Д. Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных. Альпина Паблишер, 2021 (хорошие отзывы). - Келлехер Джон Д., Тирни Брендан. Наука о данных. Базовый курс. Альпина Паблишер, 2021. - Зыков Р. В. Роман с Data Science. Как монетизировать большие данные. 2021 (для менеджеров). - Еременко К. Работа с данными в любой сфере. Альпина Паблишер, 2021 (без формул и алгоритом, для руководителей малых и средних предприятий, пожалели на красках, в итоге цветовые схемы не работают в оттенках серого). - Жаклин Нолис и Эмили Робинсон. Data Science для карьериста (в оригинале Build a Career in Data Science). Питер, 2021. - Хэнд Дэвид. Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных, 2021. - Бруссард М. Искусственный интеллект: пределы возможного. Альпина нон-фикшн, 2020. - Агравал Аджей, Ганс Джошуа, Голдфарб Ави. Искусственный интеллект на службе бизнеса. МИФ, 2019. - Кэтрин О'Нил. Убийственные большие данные. АСТ, 2018. - Шваб К. Четвертая промышленная революция. 2017 (о будущем: новые устройства, умные города, бизнес, медицина, государство). - Педро Домингос. Верховный алгоритм. Как машинное обучение изменит наш мир. 2016. - Дэвенпорт Томас. Внедрение искусственного интеллекта в бизнес-практику. Альпина Паблишер, 2020. - Форд Мартин. Роботы наступают: развитие технологий и будущее без работы. Альпина Паблишер, 2019. - Big Data. Вся технология в одной книге. Вайгенд Андреас. Эксмо, 2018. ## Книги по Data Science начального уровня ### Русский - Математика для Data Science. Управляем данными с помощью линейной алгебры, теории вероятностей и статистики. SprintBook. 2025. - Апельцин Л. Data Science в действии. Питер, 2023. - Дейтел Пол, Дейтел Харви. Python: Искусственный интеллект, большие данные и облачные вычисления. Прогресс книга, 2022. - Келлехер Джон Д. Наука о данных. Базовый курс. 2021 (совсем азбука, чтобы понять, о чем речь). - Стивен Скиена: Наука о данных. Учебный курс. Вильямс, 2020. Базовый курс от автора популярного учебника по алгоритмам. Нет ориентации на отдельные языки. Есть сопроводительные материалы в виде [слайдов и видеолекций](https://www.data-manual.com) и ссылки на подходящие конкурсы Kaggle. - О'Нил, Шатт. Data Science. Инсайдерская информация для новичков. Питер. 2019 (используется язык R). - Брюс П., Брюс Э., Гедек П. Практическая статистика для специалистов Data Science. 50+ важнейших понятий с использованием R и Python. БХD, 2021. — 2-е издание (в первом используется только R). - Силен, Мейсман, Али – Основы Data Science и Big Data. Python и наука о данных. Питер, 2018 - Грас Д. Наука о данных с нуля. БХВ-Петербург. 2021 (2-е издание). — лучше читать второе издание, в нём чище код и более реалистичные примеры, книга рассматривает всё «галопом по европам», лучше использовать как дополнение. - Силен Дэви, Мейсман Арно. Основы Data Science и Big Data. Python и наука о данных. Питер, 2018. - Пасквинелли М. Машины, формирующие(ся в) логику: нейронные сети и искаженная автоматизация интеллекта в качестве статистического вывода. ### English - Prevos P. Principles of Strategic Data Science. Packt, 2019. - Alex Galea. Applied Data Science with Python and Jupyter. Packt, 2018. ## Книги по языкам программирования с упором на Data Science ### Учебники по Python и библиотекам Python для Data Science #### Русский - Постолит А. В. Основы искусственного интеллекта в примерах на Python. БХВ-Петербург, 2021. - Маккини Уэс. Python и анализ данных. ДМК Пресс, 2020. - Себастьян Рашка, Вахид Мирджалили. Python и машинное обучение. Диалектика, 2020. - Пратик Дж. Искусственный интеллект с примерами на Python, 2019. - Дэвидсон-Пайлон К. Вероятностное программирование на Python: байесовский вывод и алгоритмы. Питер, 2019. - Элбон Крис. Машинное обучение с использованием Python. Сборник рецептов. БХВ-Петербург, 2019 - Вандер Плас Дж. Python для сложных задач. Наука о данных и машинное обучение. Питер, 2018. - Мюллер А., Гвидо С. Введение в машинное обучение с помощью Python. Вильямс, 2017. - Свейгарт Эл. Автоматизация рутинных задач с помощью Python. Вильямс, 2016. #### English - Micha Gorelick, Ian Ozsvald. High Performance Python: Practical Performant Programming for Humans. 2020. (объясняется работа интерпретатора и механик кода, способов взаимодействия с памятью) - Andriy Burkov. The Hundred-Page Machine Learning Book. 2019. - Aurelien Geron. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O'Reilly Media, 2019. - Python Machine Learning. Third edition: Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow 2. Packt, 2019. - Boschetti A. Python Data Science Essentials. Packt Publishing, 2015. ### Книги по Python, не относящиеся напрямую к Data Science, но полезные для создания DS-продуктов #### Русский - Патрик Виафоре. Надежный Python. БХВ, 2023 - Любанович Б. Простой Python. Современный стиль программирования. 2-е изд. 2022. - Гифт Ной. Python и DevOps: Ключ к автоматизации Linux. Прогресс книга, 2022 #### English - Matthew Fowler. Python Concurrency with asyncio. Manning, 2022 ### Учебники по R #### Русский - Мэтлофф Норман. Искусство программирования на R. Питер, 2019. - Роберт И. Кабаков. R в действии.Анализ и визуализация данных на языке R. 3-е издание. ДМК Пресс, 2023. - Long J.D., Teetor P. R Cookbook Proven Recipes for Data Analysis, Statistics, and Graphics (на русском в переводе: Лонг Дж.Д., Титор П. R. Книга рецептов. ДМК Пресс, 2009) #### English - Zumel N., Mount J. Practical Data Science with R, 2nd edition. 2020. - Yves Croissant, Giovanni Millo. Panel Data Econometrics with R. Wiley, 2019. - Wiley M., Wiley J.F. Advanced R Statistical Programming and Data Models: Analysis, Machine Learning, and Visualization. Apress, 2019 - [Advanced R](http://adv-r.had.co.nz/) - [Learning Statistics with R](https://web.archive.org/web/20170319021353/http://health.adelaide.edu.au:80/psychology/ccs/teaching/lsr/) - Togo L. Data Mining with R: Learning with Case Studies, 2nd Edition. 2017. - Hadley Wickham and Garrett Grolemund. R for Data Science. O’Reilly Media, 2017. - Norman Matloff. Parallel Computing for Data Science: With Examples in R, C++ and CUDA. Chapman and Hall/CRC. 2015 ### Учебники по Julia #### Русский - Эрик Энгхейм. Julia в качестве второго языка. ДМК Пресс, 2023. - Шеррингтон М.: Осваиваем язык Julia. Совершенствование мастерства в области аналитики и программирования. ДМК-Пресс, 2017. - Белов Г.В. Краткое описание языка программирования Julia с примерами использования для решения задач аппроксимации и оптимизации #### English - Kalicharan N. Julia — Bit by Bit. Programming for Beginners. Springer, 2021. - Julia 1.0 Programming Complete Reference Guide. Packt Publishing, 2019. - McNicholas P.D., Tait P. Data Science with Julia. CRC Press, 2019. ### Учебники по Data Science на Java #### English - R. Shams. Java Data Science Cookbook. Packt, 2017. - Reese J., Reese R. Java for Data Science. Packt, 2017. - Reese R.M., Reese J.L., Grigorev A. Java: Data Science Made Easy. Packt, 2017. ## Визуализация данных ### Русский - Основы визуализации данных. Пособие по эффективной и убедительной подаче информации. Бомбора, 2024 - Базалева О. И. Мастерство визуализации данных. Диалектика-Вильямс, 2018. ### English - Molin S. Hands-On Data Analysis with Pandas: Efficiently perform data collection, wrangling, analysis, and visualization using Python. Packt, 2019. - Kieran Healy. Data Visualization: A Practical Introduction. Princeton University Press, 2018. - Cole Nussbaumer Knaflic. Storytelling with Data: A Data Visualization Guide for Business Professionals – как качественно визуализировать результаты - Steve Wexler, Jeffrey Shaffer, Andy Cotgreave. The Big Book of Dashboards. Visualizing Your Data Using Real-World Business Scenarios ## Подготовка к собеседованиям ### English - Zack Austin. RocketPrep Ace Your Data Science Interview 300 Practice Questions and Answers ## Разделы с научными статьями на arXiv.org ### English - cs.AI - Artificial Intelligence ([new](https://arxiv.org/list/cs.AI/new), [recent](https://arxiv.org/list/cs.AI/recent), [current month](https://arxiv.org/list/cs.AI/current)) - cs.DS - Data Structures and Algorithms([new](https://arxiv.org/list/cs.DS/new), [recent](https://arxiv.org/list/cs.DS/recent), [current month](https://arxiv.org/list/cs.DS/current)) ================================================ FILE: books/books_finance.md ================================================ # Книги по анализу финансовых и инвестиционных данных ## Основные книги ### Русский - Хилпиш Ив. Python для финансистов. Базовые концепции, Питер, 2023 (пока не проверял, как пересекается концептуально со следующей книгой) - Хилпиш Ив. Python для финансовых расчетов. Искусство работы с финансовыми данными. Диалектика-Вильямс, 2021. - Янсен Стефан. Машинное обучение для алгоритмической торговли на финансовых рынках. Практикум. БХВ-Петербург, 2020. - Джон Дж. Мэрфи. Технический анализ фьючерсных рынков: Теория и практика. 2020. - Бенджамин Грэхем, Дэвид Додд. Анализ ценных бумаг. 2016. - Садовникова Н. А., Шмойлова Р. А. Анализ временных рядов и прогнозирование. - Плотников А. Н. Элементарная теория анализа и статистическое моделирование временных рядов. ### English - Tshepo Chris Nokeri. Econometrics and Data Science. Apply Data Science Techniques to Model Complex Problems and Implement Solutions for Economic Problems. 2021. - Yves Hilpisch. Python for Algorithmic Trading. 2021. - Lewinson E. Python for Finance Cookbook. Packt Publishing, 2020. (Есть перевод) - Hilpisch Yves. Python for Finance: Mastering Data-Driven Finance. O'Reilly Media, 2019. - Yoon Hyup Hwang. Hands-On Data Science for Marketing. Improve your marketing strategies with machine learning using Python and R. Packt, 2019. - Mark J. Bennet, Dirk L. Hugen. Financial Analytics with R: Building a Laptop Laboratory for Data. 2016. - Игорь Гальперин, Мэттью Ф. Диксон, и Пол Белоконь. Machine Learning in Finance: From Theory to Practice - Hilpisch Yves. Derivatives Analytics with Python. Wiley, 2015. ================================================ FILE: books/books_geospatial.md ================================================ ## Книги по обработке геоданных ### English - Joel Lawhead. QGIS Python Programming Cookbook. Packt Publishing, 2017 (рецепты по работе с QGIS Python API) - Silas Toms, Dara O'Beirne. ArcPy and ArcGIS. Automating ArcGIS for Desktop and ArcGIS Online with Python. Packt Publishing, 2017 - Westra E. Python Geospatial Development, Third Edition. Packt Publishing, 2016 - Michael Diener. Python Geospatial Analysis Cookbook. Packt Publishing, 2015 - Joel Lawhead. Learning GeoSpatial Analysis with Python, 2nd Edition. Packt Publishing, 2015 - Michael Dorman. Learning R for Geospatial Analysis. Packt Publishing, 2014 ### Русский - Нинчуань Сяо. Алгоритмы ГИС. Теория и применение геоинформационных систем и технологий. ДМК Пресс, 2021 - Вестра Э. Разработка геоприложений на языке Python / пер. с англ. А. В. Логунова. – М.: ДМК Пресс, 2017 ================================================ FILE: books/books_llm.md ================================================ # Книги по LLM и генеративному ИИ ### English - Raschka S. [Build a Large Language Model (From Scratch)](https://github.com/rasbt/LLMs-from-scratch). Manning, 2024 — пошаговое создание LLM: токенизация, attention, предобучение, RLHF - Alammar J., Grootendorst M. Hands-On Large Language Models. O'Reilly, 2024 — практика работы с LLM: embeddings, fine-tuning, генерация текста - Pai S. Designing Large Language Model Applications. O'Reilly, 2025 — архитектура LLM-приложений: RAG, агенты, оценка качества - Iusztin P., Labonne M. LLM Engineer's Handbook. Packt, 2024 — production LLM: деплой, мониторинг, масштабирование ================================================ FILE: books/books_machine_learning.md ================================================ # Книги по статистике машинному обучению ## Статистика ### Русский - Брюс П., Брюс Э. Практическая статистика для специалистов Data Science. 50 важнейших понятий. БХВ-Петербург, 2018. — В качестве основного языка используется R. ### English - Illowsky B., Dean S. [Introductory Statisctics](https://openstax.org/details/introductory-statistics). OpenStax, 2021. - Kormanik K. A. [Statistics Fundamentals Succinctly](https://www.syncfusion.com/succinctly-free-ebooks/statistics-fundamentals-succinctly). 2016 – введение в статистику с практической точки зрения - Shafer D. S., Zhang Z. [Introductory Statistics](https://open.umn.edu/opentextbooks/textbooks/introductory-statistics). University of North Carolina, 2012. – большое количество примеров и иллюстраций - Lane D. etc. [OnlineStatBook](https://onlinestatbook.com/). Rice University - James G., Witen D., Hastie T., Tibshirani R. — введение в методы статистического обучения с лабораторными работами на языке R - Dekking F.M., Kraaikamp C., Lopuhaa H.P., Meester L.E. [A Modern Introduction to Probability and Statistics](https://cis.temple.edu/~latecki/Courses/CIS2033-Spring13/Modern_intro_probability_statistics_Dekking05.pdf). 2005. – подробный ясный учебник по теории вероятностей и математической статистике с большим количеством примеров и упражнений ## Машинное обучение для новичков ### Русский - Бурков А. Машинное обучение без лишних слов. Питер, 2020. — простое и весьма короткое введение в область. ## Машинное обучение ### Русский - Прозис Джеф. Прикладное машинное обучение и искусственный интеллект для инженеров. Алист, 2024 - Григорьев Алексей. Машинное обучение. Портфолио реальных проектов. Питер, 2023. - практическое введение в базовое машинное обучение, NumPy, scikit-learn, pandas, TensorFlow, обучение с развертыванием в Kubernetes на AWS - Лакшманан Валиаппа. Машинное обучение. Паттерны проектирования. БХВ-Петербург, 2022. - Нильсен Э. Практический анализ временных рядов: прогнозирование со статистикой и машинное обучение. 2021 ### English - Hal Daume III. [A Course in Machine Learning](http://ciml.info/dl/v0_9/ciml-v0_9-all.pdf). 2015 – прекрасно оформленный вводный курс в машинное обучение (PDF) - Hastie T., Tibshirani R., Friedman J.. The elements of statistical learning. 2009. — классический способ начать знакомиться с машинным обучением, если вас не пугает математика - [Bayesian Reasoning and Machine Learning](http://web4.cs.ucl.ac.uk/staff/D.Barber/pmwiki/pmwiki.php?n=Brml.HomePage) – качественный, прекрасно оформленный и регулярно обновляемый курс David Barber - – курс Max Welling, 2011 г. (PDF) - [Gaussian Processes for Machine Learning](https://www.gaussianprocess.org/gpml/) - [Introduction to Machine Learning](https://arxiv.org/abs/0904.3664v1) – конспект лекций по машинному обучению Амнона Шашуа (Amnon Shashua), охватывающий темы статистического вывода - – книга 1994 г. Michie, Spiegelhalter, Taylor, основана на проекте StatLog ЕС (ESPRIT), в котором сравниваются и оцениваются методы классификации с оценкой их достоинств, недостатков и диапазонов применения - [The Elements of Statistical Learning](https://web.archive.org/web/20131027220938/http://www-stat.stanford.edu/~tibs/ElemStatLearn//) - Mastering Machine Learning Algorithms, Second Edition - Murphy. Machine learning a probabilistic perspective — объемная и содержательная книга из MIT - Richert, Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2015. — доступное изложение задач машинного обучения (анализ изображений, текстов, звука) с описанием того, как это сделать в Python - Harrington P. Machine Learning in Action. Manning, 2012. — базовое знакомство с методами машинного обучения, без перегрузки математическими деталями - Marshland S. Machine Learning: An Algorithmic Perspective. CRC Press, 2015. — приводятся и объясняются реализации разных методов машинного обучения на Python - Machine Learning Refined Foundations, Algorithms, and Applications by Jeremy Watt Reza Borhani Aggelos Katsaggelos - Shai Ben-David, Shai Shalev-Shwartz. Understanding Machine Learning: From Theory to Algorithms - Christoph Molnar. [Interpretable Machine Learning](https://christophm.github.io/interpretable-ml-book/) – книга про интерпретируемые модели - Cameron Davidson. [Bayesian Methods for Hackers](https://github.com/CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers) — всё о байесовском выводе ### Рецепты машинного обучения #### Русский - Чжен Э. Машинное обучение: Конструирование признаков. Принципы и техники для аналитиков. Бомбора, 2021. - Галлатин К., Элбон К. Машинное обучение с использованием Python. Сборник рецептов. 2 изд. Алист, 2024 ### Архитектура систем машинного обучения #### Русский - Чип Хьюен. Проектирование систем машинного обучения. 2023 - Монарх Роберт (Манро) . Машинное обучение с участием человека. ДМК Пресс, 2022 ================================================ FILE: books/books_mlops.md ================================================ # Книги по MLOps ### Русский - Чип Хьюен. Проектирование систем машинного обучения. 2023 — проектирование, деплой и мониторинг ML-систем ### English - Huyen C. [Designing Machine Learning Systems](https://www.oreilly.com/library/view/designing-machine-learning/9781098107956/). O'Reilly, 2022 — от сбора данных до мониторинга в production - Burkov A. [Machine Learning Engineering](http://www.mlebook.com/). 2020 — практические аспекты вывода ML-моделей в production - Treveil M. et al. [Introducing MLOps](https://www.oreilly.com/library/view/introducing-mlops/9781492083283/). O'Reilly, 2020 — обзор практик и инструментов MLOps - Gift N., Deza A. Practical MLOps. O'Reilly, 2021 — автоматизация ML-пайплайнов с облачными платформами ================================================ FILE: books/books_neural_networks.md ================================================ # Книги по нейронным сетям и глубокому обучению ## Основные книги ### Русский - Шолле Ф. Глубокое обучение на Python, 2-е издание, 2023 (советую читать именно 2-е издание, так как область быстро развивается и книга была в значительной мере переработана) - Коул Анирад, Ганджу Сидха, Казам Мехер. Искусственный интеллект и компьютерное зрение. Реальные проекты на Python, Keras и TensorFlow. Питер, 2023. - Грессер Лаура, Кенг Ван Лун. Глубокое обучение с подкреплением: теория и практика на языке Python. Питер, 2022. - Гуггер Сильвейн, Ховард Джереми. Глубокое обучение с fastai и PyTorch. Питер, 2022. - Постолит А. В.Основы искусственного интеллекта в примерах на Python. БХВ-Петербург, 2021. - Вейдман Сет. Глубокое обучение. Легкая разработка проектов на Python. Питер, 2021. - Теофили Томмазо. Глубокое обучение для поисковых систем. ДМК Пресс, 2020. - Микелуччи Умберто. Прикладное глубокое обучение. Подход к пониманию глубоких нейронных сетей на основе метода кейсов. БХВ-Петербург, 2020. - Макс Памперла, Кевин Фергюсон. Глубокое обучение и игра в го. ДМК Пресс, 2020. - Евгений Черняк. Введение в глубокое обучение. Диалектика, 2020. - Дэвид Фостер. Генеративное глубокое обучение. Творческий потенциал нейронных сетей. Питер, 2020. - Крон Джон, Бейлевельд Грант. Глубокое обучение в картинках. Визуальный гид по искусственному интеллекту. Питер, 2020 (в отзывах пишут, что захватывающая). - Эндрю Гласснер. Глубокое обучение без математики. Два тома: 1. Основы, 2. Практика. ДМК Пресс, 2019. - Николенко С., Кадурин А., Архангельская Е. Глубокое обучение. Погружение в мир нейронных сетей - Хайкин. Нейронные сети. Полный курс - Гибсон, Паттерсон. Глубокое обучение с точки зрения практика, 2018 - Гудфеллоу Я., Курвилль А., Бенджио И. Глубокое обучение. ДМК Пресс, 2018. - Траск Э. Грокаем глубокое обучение. Питер, 2019. - Хайкин С. Нейронные сети. Полный курс. Вильямс, 2019. - Будума Н. Основы глубокого обучения. Создание алгоритмов для искусственного интеллекта следующего поколения. Манн, Иванов, Фербер, 2019. - Осинга Д. Глубокое обучение. Готовые решения. Диалектика-Вильямс, 2019. - Шолле Ф. Глубокое обучение на R, 2018. ### English - [A Brief Introduction to Neural Networks](https://www.dkriesel.com/en/science/neural_networks) - [Neural Networks and Deep Learning](http://neuralnetworksanddeeplearning.com/) – введение в нейронные сети и глубокое обучение с кодом на Python - [Reinforcement Learning: An Introduction](https://web.archive.org/web/20161120043347/http://webdocs.cs.ualberta.ca:80/~sutton/book/ebook/the-book.html) - [Dive Into Deep Learning](https://d2l.ai/) — интерактивная книга по глубокому обучению с кодом, математикой и комментариями. Показаны реализации на NumPy, MXNet, PyTorch и TensorFlow. - [Goodfellow, Bengio, Courville. Deep Learning](https://www.deeplearningbook.org/) ## Применение глубокого обучения для отдельных областей ### Русский - Рамсундар Б., Истман П., Уолтерс П., Панде В. Глубокое обучение в биологии и медицине. ДМК Пресс, 2020. - Терренс Сейновски. Антология машинного обучения. Важнейшие исследования в области ИИ за последние 60 лет. Эксмо, 2022. - JаvaScript для глубокого обучения: TensorFlow.js. Питер, 2021. ## Глубокое обучение на Hadoop ### English - Dipayan Dev. Deep Learning with Hadoop. Packt, 2017. ================================================ FILE: books/books_nlp.md ================================================ # Книги по обработке естественного языка ## Книги для работы с английским языком и книги для разных языков ### English - Masato Hagiwara. Real-World Natural Language Processing. Practical applications with Deep Learning. 2021. - Azunre P. Transfer Learning for Natural Language Processing. 2021. - Bansal A. Advanced Natural Language Processing with TensorFlow 2. 2021. - Rotman D. Transformers for Natural Language Processing. 2021. - [Jurafsky D., Martin J. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition](https://web.stanford.edu/~jurafsky/slp3/). 2020. - Vajjala S., Majumder B., Gupta A., Surana H. Practical Natural Language Processing. A Comprehensive Guide to Building Real-World NLP Systems. 2020. - Alex Tomas. Natural Language Processing with Spark NLP. 2020. - Mathangi Sri. Practical Natural Language Processing with Python. 2020. - (PDF). Переведена на русский под названием «Берд, Кляйн и Лопер. Обработка естественного языка с Python» - Kulkarni A, Shivananda A. Natural Language Processing Recipes Unlocking Text Data with Machine Learning and Deep Learning using Python. 2019. - Sohom Ghosh, Dwight Gunning. Natural Language Processing Fundamentals. Packt Publishing. 2019. - Dipanjan Sarkar. Text Analytics with Python. A Practitioners Guide to Natural Language Processing. Second Edition. 2019. - Hobson Lane, Cole Howard, Hannes Max Hapke. Natural Language Processing in Action: Understanding, analyzing, and generating text with Python. 2019. - Goldberg Y. Neural Network Methods for Natural Language Processing. 2017. (Переведена на русский язык: Гольдберг. Нейросетевые методы в обработке естественного языка. 2019) - Mihalcea R., Radev D. Graph-based Natural Language Processing and Information Retrieval. 2011. - C. D. Manning, P. Raghavan, H. Schütze. Introduction to Information Retrieval (переведена на русский язык: Маннинг К., Рагхаван П., Шютце Х. «Введение в информационный поиск»2011) - Perkins J. Python Text Processing with NLTK 2.0 Cookbook. 2010. - Dr. Peter Jackson, Isabelle Moulinier. Natural Language Processing for Online Applications: Text Retrieval, Extraction and Categorization. 2007. - C. D. Manning, H. Schütze. Foundations of Statistical Natural Language Processing - Abduction, belief and context in dialogue: studies in computational pragmatics. Edited by Harry Bunt, William Black. 2000. - C. В. Manning, H. Schütze (1999) [Statistical Natural Language Processing](https://nlp.stanford.edu/fsnlp/). ## Большие языковые модели ### Русский - Келен Оливье, Блете Мари-Алис.Разработка приложений на базе GPT-4 и ChatGPT. Sprint Book, 2024 ### English - Aymen El Amri. OpenAI GPT For Python Developers. Leanpub. Перевод на русский: GPT-3: программирование на Python в примерах. ДМК Пресс, 2023. — Книга грешит повторяющимся кодом, но можно использовать для ознакомления с устройством OpenAI API для разных GPT-моделей. ## Книги по обработке естественного языка для русского языка ### Русский - Большакова Е.И., Клышинский Э.С. (pdf) ## Для разных языков на русском языке ### Русский - Васильев Ю. Обработка естественного языка. Python и spaCy на практике. Питер, 2021. - Хобсон, Ханнес, Коул. Обработка естественного языка в действии. Питер, 2020. - Ганегедара Т. Обработка естественного языка с TensorFlow. ДМК, 2020. - Макмахан Б. , Рао Д. Знакомство с PyTorch. Прогресс книга, 2020. - Бенгфорт Б. Прикладной анализ текстовых данных на Python. Машинное обучение и создание приложений обработки естественного языка. Питер, 2019. - Гольдберг. Нейросетевые методы в обработке естественного языка. 2019 - Ричард Риз. Обработка естественного языка на Java. ДМК Пресс, 2016. ## Периодика ### English - [ACL Anthology](https://www.aclweb.org/anthology/) - материалы основных конференций по NLP (полезно следить за ACL, EACL, NAACL, RANLP, EMNLP) - [Computational Linguistics](https://www.mitpressjournals.org/loi/coli) - [Natural Language Engineering](https://www.cambridge.org/core/journals/natural-language-engineering) ### Русский - Материалы ================================================ FILE: books/books_time_series.md ================================================ # Книги по анализу временных рядов ### Русский - Нильсен Э. Практический анализ временных рядов: прогнозирование со статистикой и машинное обучение. 2021 ### English - Hyndman R., Athanasopoulos G. [Forecasting: Principles and Practice](https://otexts.com/fpp3/). 3rd ed. — бесплатный онлайн-учебник, золотой стандарт по прогнозированию - Hamilton J. Time Series Analysis. Princeton, 1994 — классический академический учебник - Peixeiro M. Time Series Forecasting in Python. Manning, 2022 — практика: ARIMA, Prophet, deep learning для временных рядов - Lazzeri F. Machine Learning for Time Series Forecasting with Python. Wiley, 2020 — ML-подходы к прогнозированию ================================================ FILE: courses/courses_big_data.md ================================================ # Курсы по Big Data ### Русский - [Hadoop. Система для обработки больших объемов данных](https://stepik.org/course/150/) (Stepik, ★4.8) - [Материалы курса «Масштабируемое машинное обучение и анализ больших данных с Apache Spark»](https://github.com/a4tunado/lectures-hse-spark) - [Технологии хранения и обработки больших объемов данных](https://www.youtube.com/watch?v=PukjnXwGDaE&list=PLlb7e2G7aSpS_tveNoxgn1Zqmg-VhD95i) (YouTube, Computer Science Center) ### English - [CS246: Mining Massive Data Sets](https://web.stanford.edu/class/cs246/) – материалы курса Stanford ================================================ FILE: courses/courses_computer_vision.md ================================================ ## Курсы по компьютерному зрению ### Русский - [Нейронные сети и компьютерное зрение](https://stepik.org/course/50352) (Stepik, ★4.9) - [Учебный план по основам компьютерного зрения](https://proglib.io/p/cv-plan) - [Факультатив "Введение в компьютерное зрение" (по материалам CS131)](https://github.com/ml-dafe/cv_mipt_minor) (блокноты Jupyter) - [Видеокурс компьютерного зрения в ВМК МГУ](https://vk.com/mrzaur?w=wall114127459_2065%2Fall) - [OpenCV шаг за шагом](http://robocraft.ru/page/opencv/) – надо знать С++ - [Анализ изображений и видео](https://www.youtube.com/watch?v=zNCvTcoM1I4&list=PLlb7e2G7aSpR6L3pqVh8124ZITsmWckQZ) (YouTube, Computer Science Center), ([вторая часть](https://www.youtube.com/watch?v=azkzDWi8X64&list=PLlb7e2G7aSpQ4C5ykr2Ce1mfxM01l6_HV)) ### English - [Kaggle: Computer Vision](https://www.kaggle.com/learn/computer-vision) - [CS231n: Convolutional Neural Networks for Visual Recognition](https://cs231n.stanford.edu/) – материалы курса Stanford ================================================ FILE: courses/courses_data_science.md ================================================ # Курсы по общим вопросам Data Science ## Если просто хочется понять, интересно вам это или нет ### Русский - [Аналитик данных](https://praktikum.yandex.ru/data-analyst) (Яндекс.Практикум, бесплатен первый курс) - [Специалист по Data Science](https://praktikum.yandex.ru/data-scientist) (Яндекс.Практикум, бесплатен первый курс) - [Data Science: будущее для каждого](https://netology.ru/programs/dsfuture) (Нетология, 3 занятия) ## Курсы и специализации по Data Science в целом ### Русский - [Доска в Trello, с разбиением по различным тематикам Data Science](https://trello.com/b/rbpEfMld/data-science) - [Открытый курс по машинному обучению](https://www.youtube.com/playlist?list=PLVlY_7IJCMJdgcCtQfzj5j8OVB_Y0GJCl) (Юрий Кашницкий) - [Введение в Data Science и машинное обучение](https://stepik.org/course/4852) (Stepik ★4.9, Институт Биоинформатики, Анатолий Карпов): pandas, решающие деревья, random forest - [Демо KarpovCourses Аналитик данных](https://stepik.org/course/74457) (Stepik ★4.9, Анатолий Карпов и Ко) (первые три урока платного курса, много полезного для понимания сферы) - [Материалы специализации на Coursera от МФТИ и Yandex Data Factory Машинное обучение и анализ данных](https://github.com/demidovakatya/mashinnoye-obucheniye/), [другой студенческий репозиторий](https://github.com/Coursera-machine-learning-data-analysis/course-materials) - Cognitive Class: курсы по [статистике](https://www.youtube.com/watch?v=7rKQBKQOIQw&list=PL-XeOa5hMEYxprJm93wFRM49E5V0ffsfY), [построению чат-ботов](https://www.youtube.com/watch?v=6_l9Zxt4UL4&list=PL-XeOa5hMEYwOlGWMx-uVUpcKeJRggiv5), [Data Science](https://www.youtube.com/watch?v=z1kPKBdYks4&list=PL-XeOa5hMEYz5U0wAu1EvOuG-ndOEoaQr), [методологии науки о данных](https://www.youtube.com/watch?v=gE6Ya-8OB78&list=PL-XeOa5hMEYzF11WYSfDnaiSJIFY5zttH), глубокому обучению с [TensorFlow](https://www.youtube.com/watch?v=MrijcdNl_U4&list=PL-XeOa5hMEYxNzHM7YLRjIwE1k3VQpqEh), [PytTorch](https://www.youtube.com/watch?v=AIVtAiK7Thc&list=PL-XeOa5hMEYw3O0nbqiPagDnWaMSvd-Y0) и [Keras](https://www.youtube.com/watch?v=X1NkMZ5euFw&list=PL-XeOa5hMEYzE-0Om7as8e5dJmSTAS2tm) - [Data Science Tutorials](https://www.youtube.com/channel/UCk5tiFqPvdjsl7yT4mmokmg/playlists) -- небольшие занятия-инструкции по языкам Python, R и их библиотекам ### English - [Kaggle: Pandas](https://www.kaggle.com/learn/pandas) - [Kaggle: Data Cleaning](https://www.kaggle.com/learn/data-cleaning) - Coursera: ["Графические вероятностные модели"](https://www.coursera.org/specializations/probabilistic-graphical-models) - [CS109b: Advanced Topics in Data Science](https://harvard-iacs.github.io/2020-CS109B/) -- гарвардский курс - [CS109A: Introduction to Data Science](https://cs109.org/) -- вводный курс Гарварда ## Курсы по математике для Data Science ### Всего понемногу #### Русский - [Практикум по математике и Python](https://stepik.org/3356) (Stepik ★4.8, Алексей Задойный) - [Компьютерное моделирование](https://stepik.org/61480) (Stepik ★4.5, КНИТУ-КАИ им. А. Н. Туполева) ### Курсы по статистике #### Русский - [Основы статистики](https://stepik.org/76) (Stepik ★4.9, Институт Биоинформатики, Анатолий Карпов и Ко), [Часть 2](https://stepik.org/course/524), [Часть 3](https://stepik.org/course/2152) - [Анализ данных, Stepik](https://stepik.org/57623) (Stepik ★4.9, Кафедра статистики РЭУим.Г.В.Плеханова) – несмотря на название, курс в большей мере посвящен статистике ## Курсы по языкам программирования и другим инструментам Data Science ### Python #### Русский - [Программирование на Python](https://stepik.org/67) (Stepik ★4.8, Институт Биоинформатики) - [Основы Python](https://ru.hexlet.io/courses/js-basics) (Hexlet) ### R #### Русский - [Анализ данных в R](https://stepik.org/129) (Stepik ★4.9, Институт Биоинформатики, Анатолий Карпов и Ко), [вторая часть](https://stepik.org/course/724/): предобработка данных, статистика, функции семейства apply, dplyr, Data.table, ggplot - [Основы программирования на R](https://stepik.org/497) (Stepik ★4.9, Институт Биоинформатики, Антон Антонов) – для тех, кто хочет укрепить свои знания в R #### English - [Базовый курс R на Codecademy](https://www.codecademy.com/learn/learn-r) ### Julia #### English - [Курс про основы Julia для применения в Data Science проектах](https://github.com/JuliaEvangelists/Julia-in-DS) ## Курсы по базам данных ### SQL #### Русский - [Интерактивный тренажер по SQL](https://stepik.org/course/63054) (Stepik ★5.0, ДВФУ)– один из лучших курсов по введению в SQL на практических примерах - [Введение в базы данных](https://stepik.org/551) (Stepik, Александр Мяснов, Иван Савин) - [Базы данных](https://stepik.org/2614) (Stepik, СПбГУ) #### English - [Kaggle: Intro to SQL](https://www.kaggle.com/learn/intro-to-sql) - [Kaggle: Advanced SQL](https://www.kaggle.com/learn/advanced-sql) - [Вводный курс в SQL на Codecademy](https://www.codecademy.com/learn/learn-sql) ## Курсы по визуализации данных ### English - [Kaggle: Data Visualization](https://www.kaggle.com/learn/data-visualization) ## Бесплатные курсы по смежным дисциплинам Computer Science ### Linux #### Русский - [Основы командной строки](https://ru.hexlet.io/courses/cli-basics) (Hexlet) - [Операционные системы](https://ru.hexlet.io/courses/operating_systems) (Hexlet) ### Протоколы #### Русский - [Введение в интернет](https://ru.hexlet.io/courses/internet-fundamentals) (Hexlet) ### Frontend #### Русский - [Основы современной верстки](https://ru.hexlet.io/courses/layout-designer-basics) (Hexlet) - [Основы JavaScript](https://ru.hexlet.io/courses/js-basics) (Hexlet) ### Backend #### Русский - [Основы Go](https://ru.hexlet.io/courses/go-basics) (Hexlet) ================================================ FILE: courses/courses_finance.md ================================================ ## Курсы по анализу финансовых данных ### Русский - [Курс по эконометрике ВШЭ](https://www.coursera.org/learn/ekonometrika) ### English - [Applying Data Analytics in Finance](https://www.coursera.org/learn/applying-data-analytics-business-in-finance) ― Coursera, требуется знание R - [Python and Statistics for Financial Analysis](https://www.coursera.org/learn/python-statistics-financial-analysis) – курс Гонконгского университета науки и технологии - [Financial Markets](https://www.coursera.org/learn/financial-markets-global) – курс Йельского университета на Coursera (можно проходить в режиме аудита) ================================================ FILE: courses/courses_geospatial.md ================================================ # Курсы по анализу геоданных ### Русский - [Онлайн-курс «Визуализация геоданных»](https://github.com/minikarma/geotalk) (видео и блокноты Jupyter) ### English - [Kaggle: Geospatial Analysis](https://www.kaggle.com/learn/geospatial-analysis) - [Maps and the Geospatial Revolution](https://class.coursera.org/maps-002) — курс на Coursera про картографию - [From GPS and Google Maps to Spatial Computing](https://www.coursera.org/course/spatialcomputing) (Coursera) - [Специализация по ГИС от Coursera и Калифорнийского университета в Девисе](https://ru.coursera.org/specializations/gis) - [NASA ARSET: Applied Remote Sensing Training](https://www.earthdata.nasa.gov/learn/arset) — бесплатные тренинги по дистанционному зондированию ================================================ FILE: courses/courses_llm.md ================================================ # Курсы по LLM и генеративному ИИ ### English - [Stanford CS324: Large Language Models](https://stanford-cs324.github.io/winter2022/) — обучение, адаптация и оценка LLM - [DeepLearning.AI: Generative AI with LLMs](https://www.coursera.org/learn/generative-ai-with-llms) (Coursera) — жизненный цикл LLM: предобучение, fine-tuning, RLHF, деплой - [Full Stack LLM Bootcamp](https://fullstackdeeplearning.com/llm-bootcamp/) — от прототипа до production LLM-приложения: промптинг, RAG, агенты - [LLM University by Cohere](https://cohere.com/llmu) — RAG, embeddings, fine-tuning LLM - [Maxime Labonne: LLM Course](https://github.com/mlabonne/llm-course) — roadmap: архитектура LLM, fine-tuning (LoRA/QLoRA), RLHF/DPO, квантизация, деплой - [DeepLearning.AI: Building Systems with the ChatGPT API](https://www.deeplearning.ai/short-courses/building-systems-with-chatgpt/) — проектирование систем на основе LLM API ================================================ FILE: courses/courses_machine_learning.md ================================================ ## Курсы по машинному обучению ### Русский - [Введение в Data Science и машинное обучение](https://stepik.org/course/4852) (Stepik, ★4.9) - [Курс лекций К.В.Воронцова](http://machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%2C_%D0%9A.%D0%92.%D0%92%D0%BE%D1%80%D0%BE%D0%BD%D1%86%D0%BE%D0%B2%29). На YouTube-канале Яндекса [Компьютерные науки](https://www.youtube.com/channel/UCKFojzto0n4Ab3CRQRZ2zYA/playlists) можно прослушать [курс К.В. Воронцова](https://www.youtube.com/watch?v=SZkrxWhI5qM&list=PLJOzdkh8T5krxc4HsHbB8g8f0hu7973fK), прочитанный в 2019 г. - [Материалы курсов Дьяконова "Введение в машинное обучение"](https://github.com/Dyakonov/IML) - [Машинное обучение](https://stepik.org/course/8057/) (Stepik, ★4.9) - [Записи семинаров Евгения Соколова по машинному обучению, ВМК МГУ](https://github.com/esokolov/ml-course-msu) - [Курс Евгения Соколова "Машинное обучение" на ФКН ВШЭ](https://github.com/esokolov/ml-course-hse) (блокноты Jupyter), [видео на YouTube](https://www.youtube.com/watch?v=OBG6EUSRC9g&list=PLEqoHzpnmTfDwuwrFHWVHdr1-qJsfqCUX) - [Материалы курса "Машинное обучение" на ФАЛТ МФТИ](https://github.com/ml-dafe/ml_mipt_dafe_major) - [Материалы курса от ВШЭ и ШАД на coursera.org "Введение в машинное обучение"](https://github.com/tyz910/hse-shad-ml) - [Репозиторий курса "Введение в машинное обучение" в Техносфере](https://github.com/shestakoff/sphere-ml-intro) - [Введение в анализ данных и машинное обучение](https://github.com/agzamovr/ml-course-uz) (блокноты Jupyter) - [Курс по машинному обучению для магистров компьютерной лингвистики 1-го курса в Высшей Школе Экономики](https://github.com/mannefedov/hse_ml_m1) - [YouTube-курс по машинному обучению Computer Science Center](https://www.youtube.com/watch?v=pkI64ocefFU&list=PLlb7e2G7aSpSWVExpq74FnwFnWgLby56L) ([вторая часть](https://www.youtube.com/watch?v=TEyEWTYII64&list=PLlb7e2G7aSpSSsCeUMLN-RxYOLAI9l2ld)) - [Байесовские методы в машинном обучении](https://www.youtube.com/watch?v=Ejsr3S79gcQ&list=PLEqoHzpnmTfCiJpMPccTWXD9DB4ERQkyw) (YouTube, ФКН ВШЭ) - [Анализ сетевых структур](https://www.youtube.com/watch?v=JPLl72fRb80&list=PLEqoHzpnmTfABLQAiiRHGsYHexERVoEb7) (YouTube, ФКН ВШЭ, последний на английском) - [Курс Сергея Николенко о машинном обучении](https://www.youtube.com/watch?v=BPcicsBuRdc&list=PL-_cKNuVAYAWXoVzVEDCT-usTEBHUf4AF) (YouTube, Лекториум) - [Курс о байесовском выводе](https://www.youtube.com/watch?v=dVm6LKr9rLY&list=PL-_cKNuVAYAU0vPERG07V2B_fykSxiL7z) (YouTube, Лекториум) - [Курс о коммуникационной сложности](https://www.youtube.com/watch?v=-s3kucJIawo&list=PL-_cKNuVAYAUhvlUfW7P2cdhWCRDWs0pG) (YouTube, Лекториум) - Лекции Евгения Соколова о [рекомендательных системах](https://www.youtube.com/watch?v=ZyRJ9EMWztg&list=PL-_cKNuVAYAWkYunGd6zKk7UxmExS-GHl) - Лекции Александра Дайняка о [математических методах визуализации данных](https://www.youtube.com/watch?v=qhNkjC_Yjag&list=PL-_cKNuVAYAXCa4FxPy9oi3_76gjSqacM) ### English - [Курс по науке о данных Open Source Society University (OSSU)](https://github.com/ossu/data-science) – в виде GitHub-репозитория - [Kaggle: Intro to Machine Learning](https://www.kaggle.com/learn/intermediate-machine-learning) - [Kaggle: Intermediate Machine Learning](https://www.kaggle.com/learn/intermediate-machine-learning) - [Kaggle: Machine Learning Explainability](https://www.kaggle.com/learn/machine-learning-explainability) - [Kaggle: Microchallenges](https://www.kaggle.com/learn/microchallenges) - [Kaggle: Feature Engineering](https://www.kaggle.com/learn/feature-engineering) - [Introduction to Machine Learning for Coders](http://course18.fast.ai/ml) – курс fast.ai - [Machine Learning Crash Course with TensorFlow APIs](https://developers.google.com/machine-learning/crash-course) – курс Google - [Coursera: Introduction to Statistics](https://www.coursera.org/learn/stanford-statistics) – приятный курс Стэнфорда - [Seeing Theory](https://seeing-theory.brown.edu/) – короткий курс по теории вероятностей и математической статистике - [Machine Learning with Python: A Practical Introduction](https://www.edx.org/course/machine-learning-with-python-a-practical-introduct) – бесплатный курс IBM на EDX - [MIT 6.036: Introduction to Machine Learning](https://ocw.mit.edu/courses/6-036-introduction-to-machine-learning-fall-2020/) – материалы курса MIT OpenCourseWare ## Вебинары ### Русский - [Введение в анализ данных. Основные инструменты](https://live.skillbox.ru/webinars/code/vvedenie-v-analiz-dannykh-osnovnye-instrumenty261222/) - [Просто о сложной математике в Data Science](https://live.skillbox.ru/webinars/code/prosto-o-slozhnoi-matematike-v-data-science281222/) ================================================ FILE: courses/courses_mlops.md ================================================ # Курсы по MLOps ### English - [MLOps Zoomcamp](https://github.com/DataTalksClub/mlops-zoomcamp) (DataTalksClub) — бесплатный курс: experiment tracking, оркестрация, деплой, мониторинг - [Made with ML](https://madewithml.com/) — MLOps от дизайна до production: тестирование, CI/CD, мониторинг - [Full Stack Deep Learning](https://fullstackdeeplearning.com/) — весь цикл ML-проекта: от данных до деплоя и поддержки - [Coursera: Machine Learning Engineering for Production (MLOps) Specialization](https://www.coursera.org/specializations/machine-learning-engineering-for-production-mlops) (DeepLearning.AI) — 4 курса от Andrew Ng по MLOps - [Stanford CS 329S: Machine Learning Systems Design](https://stanford-cs329s.github.io/) — проектирование ML-систем для production ================================================ FILE: courses/courses_neural_networks.md ================================================ ## Курсы по нейросетям и глубокому обучению ### Русский - [Deep Learning на пальцах](https://www.youtube.com/watch?v=_q46x0tq2FQ&list=PL5FkQ0AF9O_o2Eb5Qn8pwCDg7TniyV1Wb) – курс Семена Козлова, разработчика стартапа Instrumental, бывшего сотрудника Dropbox и Microsoft. - [Нейронные сети, Институт биоинформатики, Stepik](https://stepik.org/course/401), [студенческие материалы на GitHub](https://github.com/stacymiller/stepic_neural_networks_public) - [Нейронные сети и компьютерное зрение, Samsung Research Russia Open Education](https://stepik.org/course/50352), [студенческие файлы семинаров](https://github.com/smartsinovich/Stepik_NeuralNetworks_and_ComputerVision), [студенческий финальный проект](https://github.com/ValentinKovalev/Samsung-stepik-cv-course-final-task) - [Нейронные сети и обработка текста, Samsung Research Russia Open Education, Stepik ★4.6](https://stepik.org/course/54098), [материалы курса на GitHub](https://github.com/Samsung-IT-Academy/stepik-dl-nlp) - [Deep Learning (семестр 1, весна 2020): базовый поток, Stepik](https://stepik.org/course/65388/) - [Материалы летней школы по глубокому обучению](https://github.com/olferuk/MLSummerSchool) (в форме презентаций и блокнотов Jupyter) - [Курс "Современные методы машинного обучения" ВШЭ](https://github.com/hse-ds/iad-deep-learning) (блокноты Jupyter) - [Видеокурс о генеративно-состязательных нейросетях](https://www.youtube.com/watch?v=SlJgPIOlpiI&list=PL-_cKNuVAYAVA2LtnKTukF6nKGnXhk0OB) (YouTube, Лекториум) - [YouTube курс Deep Learning](https://www.youtube.com/watch?v=0bMe_vCZo30&list=PLLHTzKZzVU9eaEyErdV26ikyolxOsz6mq&index=1) – курс от Яна Лекуна и пр., более 30 ч. Весна 2020. - [ШАДовский курс по глубокому обучению «Practical_DL»](github.com/yandexdataschool/Practical_DL) ### English - [Курс MIT по Deep Learning](https://www.youtube.com/watch?v=njKP3FqW3Sk&list=PLtBw6njQRU-rwp5__7C0oIVt26ZgjG9NI) под руководством Александра Амини содержит 30 часовых лекций об архитектурах нейронных сетей и их ограничениях - [Kaggle: Intro to Deep Learning](https://www.kaggle.com/learn/intro-to-deep-learning) - [Practical RL](https://github.com/yandexdataschool/Practical_RL) - [Practical DL](https://github.com/yandexdataschool/Practical_DL) - [Practical Deep Learning for Coders](https://course.fast.ai/) – развернутое введение в глубокое обучение от fast.ai - [d2l.ai](https://d2l.ai/) ([GitHub](https://github.com/d2l-ai/d2l-en)) - [YouTube курс UC Berkeley](https://www.youtube.com/playlist?list=PLuv1FSpHurUevSXe_k0S7Onh6ruL-_NNh), 66 занятий - [MIT 6.S191: Introduction to Deep Learning](https://introtodeeplearning.com/) – материалы курса MIT ================================================ FILE: courses/courses_nlp.md ================================================ # Курсы по обработке естественного языка ### Русский - [Введение в обработку естественного языка](https://stepik.org/course/1233/promo) (Stepik) - [Автоматическая обработка естественного языка для студентов 3-4 курсов Школы лингвистики НИУ ВШЭ (1-2 модули 2020)](https://github.com/named-entity/hse-nlp) - [Нейронные сети и обработка текста](https://stepik.org/course/54098) (Stepik, ★4.6), [материалы курса на GitHub](https://github.com/Samsung-IT-Academy/stepik-dl-nlp) - Coursera: ["Обработка текстов, написанных на естественных языках"](https://www.coursera.org/learn/language-processing) ### English - [NYU NLP course](http://www.cs.nyu.edu/courses/spring12/CSCI-GA.2590-001/) - [CS224n: Natural Language Processing with Deep Learning](https://web.stanford.edu/class/cs224n/) - [Материалы курса по глубокому обучению в обработке естественных языков для магистров компьютерной лингвистики ВШЭ](https://github.com/BobaZooba/HSE-Deep-Learning-in-NLP-Course) - [Kaggle: Natural Language Processing](https://www.kaggle.com/learn/natural-language-processing) - [YSDA Natural Language Processing course](https://github.com/yandexdataschool/nlp_course) - Fast.ai: [YouTube](https://www.youtube.com/playlist?list=PLtmWHNX-gukKocXQOkQjuVxglSDYWsSh9), [блог-пост](https://www.fast.ai/2019/07/08/fastai-nlp/), [репозиторий github](https://github.com/fastai/course-nlp) - Microsoft edX: ["Natural Language Processing"](https://www.edx.org/course/natural-language-processing-nlp) - Udacity: ["Become a Natural Language Processing Expert"](https://www.udacity.com/course/natural-language-processing-nanodegree--nd892) - [CMU 11-711: Advanced NLP](https://cmu-anlp.github.io/) – материалы курса Carnegie Mellon University ================================================ FILE: courses/courses_time_series.md ================================================ # Курсы по анализу временных рядов ### English - [Coursera: Sequences, Time Series and Prediction](https://www.coursera.org/learn/tensorflow-sequences-time-series-and-prediction) (DeepLearning.AI) — прогнозирование временных рядов с TensorFlow - [Kaggle: Time Series](https://www.kaggle.com/learn/time-series) — практический курс: тренды, сезонность, прогнозирование - [Forecasting: Principles and Practice](https://otexts.com/fpp3/) (Rob Hyndman) — бесплатный онлайн-учебник, R-ориентированный, но с отличной теорией - [Coursera: Practical Time Series Analysis](https://www.coursera.org/learn/practical-time-series-analysis) (SUNY) — классические методы: AR, MA, ARIMA, GARCH ================================================ FILE: data/data_big_data.md ================================================ # Открытые данные для Big Data ## Ресурсы ### English - [Common Crawl](https://commoncrawl.org/) – открытый веб-корпус для анализа больших данных - [AWS Open Data Registry](https://registry.opendata.aws/) – реестр публичных датасетов на AWS - [BigQuery Public Datasets](https://docs.cloud.google.com/bigquery/public-data) – публичные наборы данных в BigQuery ================================================ FILE: data/data_computer_vision.md ================================================ # Открытые данные для компьютерного зрения ## Основные датасеты ### English - [VisualData](https://www.visualdata.io/). Датасеты для компьютерного зрения, разбитые по категориям. Доступен поиск. - [xView](http://xviewdataset.org/#dataset). Один из самых больших общедоступных наборов воздушных снимков земли. Он содержит изображения различных сцен со всего мира, аннотированных с помощью ограничительных рамок. - [Labelme](http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php). Большой датасет аннотированных изображений. - [ImageNet](http://image-net.org/). Датасет изображений для новых алгоритмов, организованный в соответствии с иерархией WordNet, в которой сотни и тысячи изображений представляют каждый узел иерархии. - [LSUN](https://www.yf.io/p/lsun). Датасет изображений, разбитых по сценам и категориям с частичной разметкой данных. - [MS COCO](http://cocodataset.org/#home). Крупномасштабный датасет для обнаружения и сегментации объектов. - [COIL100](https://www.kaggle.com/jessicali9530/coil100). 100 разных объектов, изображённых под каждым углом в круговом обороте. - [Visual Genome](http://visualgenome.org/). Датасет с ~100 тыс. подробно аннотированных изображений. - [Google's Open Images](https://ai.googleblog.com/2016/09/introducing-open-images-dataset.html). Коллекция из 9 миллионов URL-адресов к изображениям, «которые были помечены метками, охватывающими более 6000 категорий» под лицензией Creative Commons. - [Labelled Faces in the Wild](http://vis-www.cs.umass.edu/lfw/). Набор из 13 000 размеченных изображений лиц людей для использования приложений, которые предполагают использование технологии распознавания лиц. - [Stanford Dogs Dataset](http://vision.stanford.edu/aditya86/ImageNetDogs/). Содержит 20 580 изображений из 120 пород собак. - [KITTI Vision Benchmark Suite](https://www.cvlibs.net/datasets/kitti/) – наборы данных для задач автономного вождения - [Cityscapes Dataset](https://www.cityscapes-dataset.com/) – разметка уличных сцен для сегментации и детекции - [Indoor Scene Recognition](http://web.mit.edu/torralba/www/indoor.html). Датасет для распознавания интерьера зданий. Содержит 15 620 изображений и 67 категорий. ## Автопилоты ### English - [Berkeley DeepDrive BDD100k](https://bdd-data.berkeley.edu/). На данный момент это самый большой датасет для автопилотов. Он содержит более 100 000 видео с более чем 1100 часами записей вождения в разное время дня и в различных погодных условиях. - [Baidu Apolloscapes](http://apolloscape.auto/). Большой датасет для распознавания 26 семантически разных объектов вроде машин, велосипедов, пешеходов, зданий, уличных фонарей и т. д. - [Comma.ai](https://archive.org/details/comma-dataset). Более семи часов езды по шоссе. Датасет включает информацию о скорости машины, ускорении, угле поворота руля и GPS-координатах. - [Oxford's Robotic Car](https://robotcar-dataset.robots.ox.ac.uk/). Более ста повторений одного маршрута по Оксфорду, заснятого в течение года. В датасет попали разные комбинации погодных условий, трафика и пешеходов, а также более длительные изменения вроде дорожных работ. - [Cityscape Dataset](https://www.cityscapes-dataset.com/). Большой датасет, содержащий записи ста уличных сцен в 50 городах. - [KUL Belgium Traffic Sign Dataset](http://www.vision.ee.ethz.ch/~timofter/traffic_signs/). Более 10 000 аннотаций тысяч разных светофоров в Бельгии. - [LISA. Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets](http://cvrr.ucsd.edu/LISA/datasets.html). Датасет с дорожными знаками, светофорами, распознанными средствами передвижения и траекториями движения. - [Bosch Small Traffic Light Dataset](https://hci.iwr.uni-heidelberg.de/node/6132). Датасет с 24 000 аннотированных светофоров. - [LaRa Traffic Light Recognition](http://www.lara.prd.fr/benchmarks/trafficlightsrecognition). Ещё один датасет для распознавания светофоров. - [WPI datasets](http://computing.wpi.edu/dataset.html). Датасет для распознавания светофоров, пешеходов и дорожной разметки. ================================================ FILE: data/data_data_science.md ================================================ # Источники открытых данных для Data Science ## Global ### English - [Google Dataset Search](https://datasetsearch.research.google.com/) - [Датасеты Kaggle](https://www.kaggle.com/datasets) - [Global Open Data Index](https://index.okfn.org/) ― отслеживание открытых данных правительств различных стран - [наборы данных AWS в Amazon](https://registry.opendata.aws/) - [BigQuery Public Datasets](https://docs.cloud.google.com/bigquery/public-data) - [Data Portals](https://dataportals.org/search) - [Open Data Monitor](https://www.opendatamonitor.eu/) - [Quandl](https://www.quandl.com/) Financial, Economic and Alternative Data - [Wikipedia: List of datasets for machine-learning research](https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research) - сабреддит [Datasets](https://www.reddit.com/r/datasets/) - [Датасеты проекта Papers with Code](https://paperswithcode.com/datasets?q=&v=lst&o=newest) - [DataHub](https://datahub.io/) ## Россия ### Русский - [Российский федеральный портал открытых данных](http://data.gov.ru/) - [Мультистат](http://multistat.ru/) - [Открытые НКО](https://openngo.ru/) - [Хаб открытых данных](https://hubofdata.ru/) – каталог открытых данных русскоязычных пользователей. Данные государства, НКО и коммерческих компаний - [Архив](http://sophist.hse.ru/) экономических и социологических данных по российской Федерации от НИУ ВШЭ - [Росстат](https://rosstat.gov.ru/) – Федеральная служба государственной статистики - [ВЦИОМ](https://wciom.ru/), их [базы данных](https://bd.wciom.ru/) - [ФОМ](https://fom.ru/) – Фонд «Общественное мнение», российская организация, занимающаяся проведением социологических исследований - [Официальные статистические показатели](https://www.fedstat.ru/) - [Открытые данные Министерства финансов](https://minfin.gov.ru/opendata/) - [Открытые данные Министерства культуры](https://opendata.mkrf.ru/) ## Открытые данные отдельных городов России ### Русский - [Портал открытых данных правительства Москвы](https://data.mos.ru/) - [Открытые данные Санкт-Петербурга](https://data.gov.spb.ru/) - [Каталог государственных сайтов Санкт-Петербурга](https://esir.gov.spb.ru/) - [Анапа](https://www.anapa-official.ru/opendata/) - [Георгиевск](http://www.georgievsk.ru/about/opendata/) - [Зеленоград](http://www.zelao.ru/opendata/) - [Йошкар-Ола](http://www.i-ola.ru/opendata/) - [Казань](http://data.kzn.ru/) - [Краснодар](https://www.krd.ru/opendata/) - [Ставрополь](http://www.stavadm.ru/opendata/) - [Тула](http://opendata71.ru) - [Челябинск](http://socchel.ru/otkrytye-dannye) - [Южно-Сахалинск](http://yuzhno-sakh.ru/dirs/1462) ## Открытые данные отдельных регионов России ### Русский - [Астраханская область]( http://egov.astrobl.ru/opendata/nabory-otkrytyh-dannyh) - [Волгоградская область](http://old.volganet.ru/files/opendata/) - [Вологодсая область](http://opendata.gov35.ru/) - [Курганская область](http://kurganobl.ru/otkrytye-dannye) - [Нерюнгринский район](http://www.neruadmin.ru/opendata/) - [Пермский край](http://opendata.permkrai.ru/opendata/) - [Ставропольский край](http://www.stavregion.ru/open/otkrytye-dannye/) - [Томская область](http://tomsk.gov.ru/ru/otkrytyy-region/otkrytye-dannye/otkrytye-dannye-tomskoy-oblasti/) - [Татарстан](https://open.tatarstan.ru/data/dataset) - [Тыва](http://www.opentuva.ru/) - [Тюменская область]( https://www.admtyumen.ru/ogv_ru/gov/open-gov/opendata.htm) - [Ульяновская область](http://data.ulgov.ru/) - [Хабаровский край](http://www.khv.gov.ru/ODOpenData/ChooseData) - [Ярославская область](http://www.yarregion.ru/opendata/default.aspx) ## Открытые данные других стран ### English - [Data.gov](https://www.data.gov/) – данные государственных учреждений США - [Великобритания](https://www.data.gov.uk/) ## Медицинские данные ### English - [MIMIC-III](https://mimic.physionet.org/). Датасет с обезличенными данными о состоянии здоровья 40 тыс. пациентов, находящихся на интенсивной терапии. Он включает демографические данные, показатели жизнедеятельности, лабораторные анализы ## Научные статьи ### English - [scholar.google.com](https://scholar.google.com/) - [arxiv.org](https://arxiv.org/) - [arxiv-sanity.org](https://arxiv-sanity.org/) - [paperswithcode.com](https://paperswithcode.com/) ## Открытые API ### English - [GitHub-подборка открытых API различного назначения](https://github.com/public-apis/public-apis) ================================================ FILE: data/data_finance.md ================================================ # Базы данных и источники информации по финансам и имуществу ## Основные источники ### Русский - [Seldon](https://basis.myseldon.com/ru/) – сервис для анализа сведений о компаниях и предпринимателях. - [Банк России](https://www.cbr.ru/) – информация Банка России по бюро кредитных историй, внесенных в государственный реестр. Для аналитиков данных интересны разделы [базы данных](https://www.cbr.ru/hd_base/), [аналитика](https://www.cbr.ru/analytics/) (финансовых потоков), [исследования](https://www.cbr.ru/ec_research/), [статистика](https://www.cbr.ru/statistics/) - [Предоставление данных бухгалтерской отчетности по запросам пользователей](https://rosstat.gov.ru/accounting_report) – страница Федеральной службы государственной статистики. Достаточно указать год и ИНН. Отчет можно выгрузить в xlsx. - [Базы данных TKS](https://www.tks.ru/db/) – таможня и логистика, банки, СВХ, МДП, брокеры, перевозчики. - [Организации России](http://www.catalogfactory.org/) – финансовые результаты, справочные данные и отзывы. - [Реестр организаций](http://www.reestrtpprf.ru/), включенных в системы Торгово-промышленных палат РФ. - [Информационная система в сфере закупок](https://zakupki.gov.ru/epz/main/public/home.html). - [BiCoTender](https://www.bicotender.ru/), [Magelan](https://magelan.pro/) – поисковики по государственными и коммерческим тендерам России и СНГ. - [Федресурс](https://fedresurs.ru/) – федеральный реестр сведений о фактах деятельности юридических лиц. - [Декларатор](https://declarator.org/) — база данных о российских публичных должностных лицах. ### English - [Quandl](https://www.quandl.com/) — источник экономических и финансовых данных, полезный при построении моделей прогнозирования экономических показателей и цен на акции. - [World Bank Open Data](https://data.worldbank.org/) — наборы данных, охватывающих демографию, экономические показатели и индикаторы развития. - [IMF Data](https://www.imf.org/en/Data) — данные Международного валютного фонда о международных финансах, показателях долга, валютных резервах, инвестициях и ценах на сырьевые товары. - [FRED](https://fred.stlouisfed.org/) — база макроэкономических временных рядов. - [SEC EDGAR](https://www.sec.gov/submit-filings/about-edgar) — база публичных корпоративных отчетов США. - [OECD Data](https://www.oecd.org/en/data.html) — международная статистика по экономике и обществу. - [Financial Times Market Data](https://markets.ft.com/data/) — актуальная информация о финансовых рынках: индексы цен на акции, товары и валюту. - [American Economic Association (AEA)](https://www.aeaweb.org/resources/data/us-macro-regional) – источник данных о макроэкономике США. ## Базы данных и источники правовой информации ### Русский - [Право](https://pravo.ru/) – судебная база, [досье судей](https://pravo.ru/judges_search/) и [информация о судах](https://pravo.ru/courts_search/). - [Федеральные арбитражные суды РФ](http://arbitr.ru/) – [картотека арбитражных дел](http://kad.arbitr.ru/), [решения арбитражных судов](http://ras.arbitr.ru/). - [Государственная система правовой информации](http://pravo.gov.ru/). - [Реестр деклараций РФ](http://188.254.71.82/rds_ts_pub/). - [Судебные и нормативные акты РФ](https://sudact.ru/). - [Портал правовой статистики](http://www.crimestat.ru/opendata). ================================================ FILE: data/data_geospatial.md ================================================ # Источники геоданных ## Основные источники ### English [OpenStreetMap](https://www.openstreetmap.org/) позволяет легально использовать картографическую информацию. Еженедельно делается XML-снимок базы данных в виде файла [planet.osm](http://planet.openstreetmap.org/) ([карта базы данных](https://wiki.openstreetmap.org/wiki/Database)). На момент публикации размер bz2-архива составлял 100 Гб. Данные также разрезаются по регионам и выкладываются в форматах PBF- и XML-файлов на [GeoFabrik](http://download.geofabrik.de/). Примеры работы с такими файлами описаны в публикации [OpenStreetMap как источник геоданных](https://habr.com/ru/post/270513/). Также можно выгрузить подмножество данных, которыми вы интересуетесь с помощью [API OpenStreetMap](https://wiki.openstreetmap.org/wiki/RU:API_v0.6). ## Другие источники данных ### English - [Геоданные веб-сайта Natural Earth](https://www.naturalearthdata.com/) – публично доступные векторные и растровые данные географических карт с высоким, средним и низким разреше­ниями - [Географическая база данных GSHHG](https://www.soest.hawaii.edu/pwessel/gshhg/) – высококачественные векторные данные береговых линий всего мира в виде базы данных - [National Geospatial Program](https://www.usgs.gov/core-science-systems/national-geospatial-program/national-map) - [NASA Earthdata](https://www.earthdata.nasa.gov/) – каталог и доступ к данным дистанционного зондирования - [Copernicus Data Space Ecosystem](https://dataspace.copernicus.eu/) – доступ к данным Sentinel и сервисам Copernicus - [USGS EarthExplorer / Landsat](https://www.usgs.gov/landsat-missions/landsat-data-access) – доступ к данным Landsat и другим спутниковым продуктам - [Открытый геопространственный консорциум](https://www.ogc.org/) – организация, которая занимается стандартизацией протоколов совместного использования и хранения геоданных: GML, KML, GeoRSS и др. - [Набор данных государственных границ](http://thematicmapping.org/downloads/world_borders.php) - Набор данных [Blue Marble Next Generation] – синтезированные NASA безоблачные снимки земной поверхности - Данные съёмок SRTM --- [srtm.csi.cgiar.org](http://srtm.csi.cgiar.org/). [Что это такое](http://gis-lab.info/qa/srtm.html) ### Проекции #### English - [Сводная таблица по картографическим проекциям](http://www.radicalcartography.net/?projectionref) ================================================ FILE: data/data_llm.md ================================================ # Данные для LLM и генеративного ИИ ## Датасеты ### English - [OpenAssistant Conversations](https://huggingface.co/datasets/OpenAssistant/oasst1) — 161K сообщений, 35 языков, краудсорсинг для обучения ассистентов - [Dolly](https://huggingface.co/datasets/databricks/databricks-dolly-15k) (Databricks) — 15K instruction-response пар - [UltraChat](https://huggingface.co/datasets/stingning/ultrachat) — 1.5M многоходовых диалогов для обучения чат-моделей - [UltraFeedback](https://huggingface.co/datasets/openbmb/UltraFeedback) — 256K пар с оценками для DPO/RLHF - [MMLU](https://huggingface.co/datasets/cais/mmlu) — 57 предметов, стандартный бенчмарк знаний LLM ### Русский - [ru_turbo_alpaca](https://huggingface.co/datasets/IlyaGusev/ru_turbo_alpaca) (Илья Гусев) — русскоязычный instruction-датасет ## Бенчмарки (репозитории) ### English - [HumanEval](https://github.com/openai/human-eval) (OpenAI) — бенчмарк генерации кода - [IFEval](https://github.com/google-research/google-research/tree/master/instruction_following_eval) (Google) — оценка следования инструкциям - [Chatbot Arena](https://lmarena.ai/) (LMSYS) — парные сравнения моделей, ELO-рейтинг ================================================ FILE: data/data_machine_learning.md ================================================ # Открытые данные для оценки качества моделей машинного обучения ## Ресурсы ### English - [Репозиторий UC Irvine Machine Learning Repository](https://archive.ics.uci.edu/ml/datasets.php) – около 500 датасетов для проверки моделей машинного обучения - [OpenML](https://www.openml.org/) – платформа с датасетами, задачами и результатами экспериментов по ML ================================================ FILE: data/data_mlops.md ================================================ # Данные и бенчмарки для MLOps ## Бенчмарки ### English - [MLPerf](https://mlcommons.org/benchmarks/) (MLCommons) — стандартизированные бенчмарки производительности ML-систем: training, inference ================================================ FILE: data/data_neural_networks.md ================================================ # Открытые данные для задач нейронных сетей ## Ресурсы ### English - [The Pile (EleutherAI)](https://huggingface.co/datasets/EleutherAI/pile) – большой текстовый корпус для обучения языковых моделей - [LAION-5B](https://laion.ai/blog/laion-5b/) – масштабный набор пар изображение-текст ================================================ FILE: data/data_nlp.md ================================================ # Лингвистические и филологические данные ## Основные ресурсы ### Русский - [Национальный корпус русского языка](https://ruscorpora.ru/), [другие корпусы](https://ruscorpora.ru/new/corpora-other.html) - Предобученные вектора для русского языка и интерактивные примеры [RusVectōrēs](https://rusvectores.org/ru/) ## Параллельные корпуса ### English - [Parallel corpora](https://www.clarin.eu/resource-families/parallel-corpora) - [Europarl](https://www.statmt.org/europarl/) - [UN Corpus](https://conferences.unite.un.org/UNCorpus/) - [LDC Un Parallel text](https://catalog.ldc.upenn.edu/LDC94T4A) - [Opus](http://opus.nlpl.eu/) ### Международные базы данных, корпусы и датасеты #### Русский - [NLPub](https://nlpub.ru/) – русскоязычный каталог ресурсов для обработки естественного языка #### English - [Список популярных датасетов](https://github.com/niderhoff/nlp-datasets) - [Brown corpus](http://icame.uib.no/brown/bcm.html) - [Корпуса для английского](https://aclweb.org/aclwiki/Corpora_for_English) - [HotspotQA Dataset](https://hotpotqa.github.io/) – датасет вопросов-ответов - [Amazon Reviews](https://snap.stanford.edu/data/web-Amazon.html) – около 35 млн отзывов на Amazon за 18 лет: информация о продукте и пользователе, оценки и сам текст отзыва - [Google Books Ngrams](https://aws.amazon.com/ru/datasets/google-books-ngrams/) – коллекция слов из Google Книги - [Blogger Corpus](http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm) – коллекция из 600 тыс. постов с Blogger - [Wikipedia Links data](https://code.google.com/archive/p/wiki-links/downloads) – каждая из страниц содержит хотя бы одну ссылку на Википедию и текст якоря совпадает или похож на заголовок целевой страницы - [Wikimedia dumps](https://dumps.wikimedia.org/) – выгрузки данных проектов Wikimedia - [Gutenberg eBooks List](https://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs) – аннотированный список электронных книг проекта «Гутенберг» - [Common Crawl](https://commoncrawl.org/) – открытый веб-корпус - [Hansards text chunks of Canadian Parliament](https://www.isi.edu/natural-language/download/hansard/) – датасет 1.3 млн пар текстовых файлов, записанных на дебатах 36-го Канадского Парламента - [Jeopardy](https://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/) – архив 200 тыс. вопросов телевикторины Jeopardy - [Rotten Tomatoes Reviews](https://drive.google.com/file/d/1w1TsJB-gmIkZ28d1j7sf1sqcPmHXw352/view) – архив 480 тыс. рецензий на фильмы - [SMS Spam Collection in English](http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/) – 5574 спам-смс на английском - [Yelp Reviews](https://www.yelp.com/dataset) – датасет от Yelp из 5 млн отзывов - [UCI’s Spambase](https://archive.ics.uci.edu/ml/datasets/Spambase) – датасет спам-писем - [Apache Software Foundation Public Mail Archives](https://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/) – архив открытых писем, связанных с поддержкой программного обеспечения Apache ## Обработка естественного языка ### English - [HotspotQA Dataset](https://hotpotqa.github.io/). Датасет с вопросами-ответами, позволяющий создавать системы для ответов на вопросы более понятным способом. - [SQuAD](https://rajpurkar.github.io/SQuAD-explorer/) – датасет для задач question answering - [Enron Dataset](https://www.cs.cmu.edu/~./enron/). Данные электронной почты от высшего руководства Enron. - [Amazon Reviews](https://snap.stanford.edu/data/web-Amazon.html). Содержит около 35 млн отзывов с Amazon за 18 лет. Данные включают информацию о продукте и пользователе, оценки и сам текст отзыва. - [Google Books Ngrams](https://aws.amazon.com/ru/datasets/google-books-ngrams/). Коллекция слов из Google Книги. - [Blogger Corpus](http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm). Коллекция из 681 288 постов с Blogger. Каждый блог содержит как минимум 200 вхождений часто используемых английских слов. - [Wikipedia Links data](https://code.google.com/archive/p/wiki-links/downloads). Датасет, состоящий из веб-страниц, которые удовлетворяют следующим двум условиям: каждая из них содержит хотя бы одну ссылку на Википедию и текст её якоря совпадает или похож на заголовок целевой страницы. - [Gutenberg eBooks List](https://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs). Аннотированный список электронных книг проекта «Гутенберг». - [Hansards text chunks of Canadian Parliament](https://www.isi.edu/natural-language/download/hansard/). Датасет с 1.3 миллионами пар текстовых файлов, записанных с дебатов 36-го Канадского Парламента. - [Jeopardy](https://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/). Архив с более чем 200 000 вопросов с телевикторины Jeopardy. - [Rotten Tomatoes Reviews](https://drive.google.com/file/d/1w1TsJB-gmIkZ28d1j7sf1sqcPmHXw352/view). Архив из более чем 480 000 рецензий с Rotten Tomatoes. - [SMS Spam Collection in English](http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/). Датасет, состоящий из 5574 спам-смс на английском. - [Yelp Reviews](https://www.yelp.com/dataset). Датасет от Yelp, содержащий более 5 млн отзывов. - [UCI's Spambase](https://archive.ics.uci.edu/ml/datasets/Spambase). Большой датасет спам-писем. ### Синтаксический анализ #### English - [Penn Treebank](https://catalog.ldc.upenn.edu/LDC99T42) #### Русский - [SynTagRus](https://ru.wikipedia.org/wiki/%D0%A1%D0%B8%D0%BD%D0%A2%D0%B0%D0%B3%D0%A0%D1%83%D1%81) -- корпус синтаксической разметки для русского языка, есть [версия с разметкой для универсальных зависимостей](https://github.com/UniversalDependencies/UD_Russian-SynTagRus) ## Анализ тональности текста ### English - [Multidomain sentiment analysis dataset](http://www.cs.jhu.edu/~mdredze/datasets/sentiment/). Немного устаревший датасет, который содержит отзывы на товары с Amazon. - [IMDB reviews](http://ai.stanford.edu/~amaas/data/sentiment/). Староватый, относительной небольшой (25 000 отзывов к фильмам) датасет для бинарного анализа тональности. - [Stanford Sentiment Treebank](http://nlp.stanford.edu/sentiment/code.html). Стэнфордский датасет для анализа тональности. - [Sentiment140](http://help.sentiment140.com/for-students/). Популярный датасет с 160 000 твитов с удалёнными смайликами. - [Twitter US Airline Sentiment](https://www.kaggle.com/crowdflower/twitter-airline-sentiment). Набор данных из Twitter об авиакомпаниях США, датируемый февралём 2015 года, разделённый на положительные, негативные и нейтральные твиты. - [WordNet-Affect](https://wndomains.fbk.eu/wnaffect.html) – семантический тезаурус, в котором понятия, связанные с эмоциями («эмоциональные концепты», англ. «affective concepts»), представлены с помощью слов, обладающих эмоциональной составляющей («эмоциональные слова», англ. «affective words») ([вики](https://ru.wikipedia.org/wiki/%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%82%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D1%81%D1%82%D0%B8_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0#%D0%A1%D0%BC%D0%B8%D1%81%D0%BB%D0%BE%D0%B2%D1%8B%D0%B5_%D1%82%D0%B5%D0%B7%D0%B0%D1%83%D1%80%D1%83%D1%81%D1%8B)) - [SenticNet](https://sentic.net/) – семантический тезаурус для работы с наборами эмоциональных понятий ([вики](https://ru.wikipedia.org/wiki/%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%82%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D1%81%D1%82%D0%B8_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0#%D0%A1%D0%BC%D0%B8%D1%81%D0%BB%D0%BE%D0%B2%D1%8B%D0%B5_%D1%82%D0%B5%D0%B7%D0%B0%D1%83%D1%80%D1%83%D1%81%D1%8B)) ================================================ FILE: data/data_time_series.md ================================================ # Данные для анализа временных рядов ## Датасеты ### English - [UCR Time Series Classification Archive](https://www.cs.ucr.edu/~eamonn/time_series_data_2018/) — 128 датасетов для классификации временных рядов, стандартный бенчмарк - [M4 Competition Data](https://github.com/Mcompetitions/M4-methods) — 100K временных рядов разной частоты (часовые, дневные, месячные и др.) - [M5 Competition Data](https://www.kaggle.com/competitions/m5-forecasting-accuracy) (Kaggle) — продажи Walmart, иерархическое прогнозирование - [Monash Time Series Forecasting Archive](https://forecastingdata.org/) — 30+ датасетов для оценки методов прогнозирования ## API ### English - [Yahoo Finance](https://finance.yahoo.com/) — исторические котировки акций и индексов - [Alpha Vantage](https://www.alphavantage.co/) — бесплатный API для финансовых временных рядов ================================================ FILE: main_readme_constructor.ipynb ================================================ { "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Конструктор главного README-файла репозитория\n", "\n", "Цель – в дополнение к таблице собрать оставшуюся часть страницы, вставив содержимое остальных страниц. Для этого необходимо:\n", "1. Считать содержимое таблицы\n", "2. Для страниц, содержащих ссылки, скопировать и объединить содержимое README-файлов\n", "3. Вывести суммарное содержимое в порядке, соответствующем таблице" ] }, { "cell_type": "code", "execution_count": 119, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "# Общие вопросы Data Science\n", "## Курсы по общим вопросам Data Science\n", "\n", "### Если просто хочется понять, интересно вам это или нет\n", "- [Аналитик данных](https://praktikum.yandex.ru/data-analyst) (Яндекс.Практикум, бесплатен первый курс)\n", "- [Специалист по Data Science](https://praktikum.yandex.ru/data-scientist) (Яндекс.Практикум, бесплатен первый курс)\n", "\n", "### Курсы и специализации по Data Science в целом\n", "- [Доска в Trello, с разбиением по различным тематикам Data Science](https://trello.com/b/rbpEfMld/data-science)\n", "- [Материалы специализации на Coursera от МФТИ и Yandex Data Factory Машинное обучение и анализ данных](https://github.com/demidovakatya/mashinnoye-obucheniye/), [другой студенческий репозиторий](https://github.com/Coursera-machine-learning-data-analysis/course-materials)\n", "\n", "### Курсы по языкам программирования и другим инструментам Data Science\n", "\n", "#### SQL\n", "- [Интерактивный тренажер по SQL на Stepik](https://stepik.org/course/63054) – один из лучших курсов по введению в SQL на практических примерах\n", "\n", "#### Julia\n", "- [Курс про основы Julia для применения в Data Science проектах](https://github.com/JuliaEvangelists/Julia-in-DS)\n", "\n", "## Книги по общим вопросам Data Science\n", "### Смешанные подборки книг по различным тематикам Data Science\n", "- [100 бесплатных книг по Data Science ](https://www.learndatasci.com/free-data-science-books/) (англ.)\n", "- [Бесплатные электронные книги по Data Science издательства O'Reilly](https://www.oreilly.com/data/free/archive.html)\n", "\n", "### Книги по Data Science начального уровня\n", "- Грас Дж. Наука о данных с нуля\n", "\n", "### Книги по языкам программирования с упором на Data Science\n", "#### Учебники по Python\n", "- Вандер Плас Дж. Python для сложных задач. Наука о данных и машинное обучение\n", "- Маккини Уэс. Python и анализ данных\n", "- Свейгарт Эл. Автоматизация рутинных задач с помощью Python\n", "- Дэвидсон-Пайлон К. Вероятностное программирование на Python: байесовский вывод и алгоритмы\n", "- Мюллер А., Гвидо С. Введение в машинное обучение с помощью Python\n", "\n", "#### Учебники по R\n", "- [Advanced R](http://adv-r.had.co.nz/)\n", "- [Learning Statistics with R](https://web.archive.org/web/20170319021353/http://health.adelaide.edu.au:80/psychology/ccs/teaching/lsr/)\n", "- Кабаков. R в действии. Анализ и визуализация данных на языке R\n", "\n", "#### Учебники по Julia\n", "- Шеррингтон М.: Осваиваем язык Julia. Совершенствование мастерства в области\n", "\n", "## Источники открытых данных для Data Science\n", "\n", "### Global\n", "- [Google Dataset Search](https://datasetsearch.research.google.com/)\n", "- [Датасеты Kaggle](https://www.kaggle.com/datasets)\n", "- [Global Open Data Index](https://index.okfn.org/)\n", "\n", "### Россия\n", "- [Мультистат](http://multistat.ru/)\n", "- [Хаб открытых данных](https://www.hubofdata.ru/) – каталог открытых данных русскоязычных пользователей. Данные государства, НКО и коммерческих компаний\n", "- [Архив](http://sophist.hse.ru/) экономических и социологических данных по российской Федерации от НИУ ВШЭ\n", "- [Портал открытых данных правительства Москвы](https://data.mos.ru/)\n", "- [Открытые данные Санкт-Петербурга](https://data.gov.spb.ru/)\n", "- [Росстат](https://rosstat.gov.ru/) – Федеральная служба государственной статистики\n", "- [ВЦИОМ](https://wciom.ru/), их [базы данных](https://bd.wciom.ru/)\n", "- [ФОМ](https://fom.ru/) – Фонд «Общественное мнение», российская организация, занимающаяся проведением социологических исследований\n", "\n", "### США\n", "- [Data.gov](https://www.data.gov/) – данные государственных учреждений США\n", "\n", "## Блоги, соцсети и другие издания, посвященные общим вопросам Data Science\n", "\n", "### Блоги, посвященные Data Science\n", "- [Список публикаций matyushkin/lessons](https://github.com/matyushkin/lessons)\n", "- [distill.pub](https://distill.pub/)\n", "- [inference.vc](https://www.inference.vc/)\n", "- [karpathy.github.io](https://karpathy.github.io/)\n", "- [deliprao.com](http://deliprao.com/)\n", "- [fastml.com](https://fastml.com/)\n", "- [timvieira.github.io](https://timvieira.github.io/)\n", "- [blogs.princeton.edu](https://blogs.princeton.edu/)\n", "- [offconvex.org](https://www.offconvex.org/)\n", "- [ruder.io](http://ruder.io/)\n", "- [argmin.net](https://www.argmin.net/)\n", "- [nlpers.blogspot.ru](https://nlpers.blogspot.com/)\n", "- [blog.shakirm.com](http://blog.shakirm.com/)\n", "- [blog.paralleldots.com](https://blog.paralleldots.com)\n", "- [alexanderdyakonov.wordpress.com](https://dyakonov.org/)\n", "\n", "### Ветки Reddit\n", "- [/analyzit](https://www.reddit.com/r/analyzit)\n", "- [/datascience](https://www.reddit.com/r/datascience)\n", "- [/datacleaning](https://www.reddit.com/r/datacleaning)\n", "- [/datagangsta](https://www.reddit.com/r/datagangsta)\n", "- [/dataisbeautiful](https://www.reddit.com/r/dataisbeautiful)\n", "- [/dataisugly](https://www.reddit.com/r/dataisugly)\n", "- [/datasets](https://www.reddit.com/r/datasets)\n", "- [/dataviz](https://www.reddit.com/r/dataviz)\n", "- [/JupyterNotebooks](https://www.reddit.com/r/JupyterNotebooks)\n", "- [/opendata](https://www.reddit.com/r/opendata)\n", "\n", "\n", "### Блокноты Jupyter\n", "- 🌟 [Jupyter Notebook: галерея блокнотов по ML и Data Science](https://proglib.io/p/jupyter-notebook-best) ([ист.](https://github.com/jupyter/jupyter/wiki/A-gallery-of-interesting-Jupyter-Notebooks))\n", "\n", "### Slack\n", "- [Open Data Science](http://ods.ai) – то, с чего вообще стоит начинать – самое крупное мировое сообщество \n", "- [Slack Томской группы по ML](https://tomskml.slack.com/) ([анкета для регистрации](https://docs.google.com/forms/d/e/1FAIpQLSdYpgm7T80JpyBPt6NMgRP_4jne7v_qaGFjy8wDrS4fNajMDA/viewform?c=0&w=1))\n", "\n", "### Telegram-каналы о Data Science\n", "- [Новостной канал Open Data Science](https://t.me/opendatascience)\n", "- [Чат по большим данным, обработке и машинному обучению](https://t.me/bigdata_ru)\n", "- [Чат по Data Science](https://t.me/datasciencechat)\n", "- - [Spark in me: Internet, statistics, data science, philosophy](https://t.me/snakers4), [чат канала](https://t.me/joinchat/AAAAAEH9JHYBvaPLvaWPGg)\n", "- [Канал с постами с Reddit на DS-тематику](https://t.me/datascientology)\n", "\n", "### VK-группы о Data Science\n", "- [Data Science](https://vk.com/datascience)\n", "- [Data Mining Labs](https://vk.com/datamininglabs)\n", "- [Группа вк про тренировки по машинному обучению](https://vk.com/mltrainings)\n", "- [Томская группа по машинному обучению](https://vk.com/tomskml)\n", "- [Мемы про машинное обучение для юных леди](https://vk.com/weirdreparametrizationtrick)\n", "- [Python, Data Science, нейросети, ИИ](https://vk.com/python_ds)\n", "\n", "### Facebook-страницы по Data Science\n", "- [ML-тренировки в Москве](https://www.facebook.com/groups/1413405125598651/)\n", "\n", "### ▶️ YouTube и другие видеоплатформы с информацией о Data Science\n", "- [30 YouTube-каналов и плейлистов о Data Science](https://proglib.io/p/30-youtube-kanalov-i-pleylistov-o-data-science-2020-06-17)\n", "- [7 лучших видео TED по тематике Data Science](https://proglib.io/p/7-luchshih-video-ted-po-tematike-data-science-2020-01-20) ([ист.](https://towardsdatascience.com/best-ted-talks-for-data-science-11b699544f))\n", "\n", "# Программное обеспечение, библиотеки и другие готовы решения для общих задач Data Science\n", "\n", "- [Docker-образы для Data Science](https://github.com/yang-zhang/docker-setup)\n", "\n", "## Блокноты Jupyter\n", "- [Practical pandas projects](https://github.com/schlende/practical-pandas-projects) – 5 идей для совершенствования навыков Data Science\n", "- [Ветка Reddit JupyterNotebooks](https://www.reddit.com/JupyterNotebooks)\n", "\n", "\n", "# Машинное обучение\n", "# Курсы по статистике\n", "- [Основы статистики на Stepik](https://stepik.org/course/76), [Часть 2](https://stepik.org/course/524), [Часть 3](https://stepik.org/course/2152)\n", "- [Анализ данных в R](https://stepik.org/course/129) (от той же команды, Stepik, ★4.9), [часть 2](https://stepik.org/course/724)\n", "\n", "# Курсы по машинному обучению\n", "- [Введение в Data Science и машинное обучение](https://stepik.org/course/4852) (Stepik, ★4.9)\n", "- [Курс лекций К.В.Воронцова](http://machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%2C_%D0%9A.%D0%92.%D0%92%D0%BE%D1%80%D0%BE%D0%BD%D1%86%D0%BE%D0%B2%29)\n", "- [Материалы курсов Дьяконова \"Введение в машинное обучение\"](https://github.com/Dyakonov/IML)\n", "- [Машинное обучение](https://stepik.org/course/8057/) (Stepik, ★4.9)\n", "- [Записи семинаров Евгения Соколова по машинному обучению, ВМК МГУ](https://github.com/esokolov/ml-course-msu)\n", "- [Курс Евгения Соколова \"Машинное обучение\" на ФКН ВШЭ](https://github.com/esokolov/ml-course-hse) (блокноты Jupyter)\n", "- [Курс по науке о данных Open Source Society University (OSSU)](https://github.com/ossu/data-science) – в виде GitHub-репозитория\n", "- [Материалы курса \"Машинное обучение\" на ФАЛТ МФТИ](https://github.com/ml-dafe/ml_mipt_dafe_major)\n", "- [Материалы курса от ВШЭ и ШАД на coursera.org \"Введение в машинное обучение\"](https://github.com/tyz910/hse-shad-ml)\n", "- [Репозиторий курса \"Введение в машинное обучение\" в Техносфере](https://github.com/shestakoff/sphere-ml-intro)\n", "- [Введение в анализ данных и машинное обучение](https://github.com/agzamovr/ml-course-uz) (блокноты Jupyter)\n", "- [Курс по машинному обучению для магистров компьютерной лингвистики 1-го курса в Высшей Школе Экономики](https://github.com/mannefedov/hse_ml_m1)\n", "# Книги по статистике машинному обучению\n", "## Статистика\n", "- Брюс П., Брюс Э. Практическая статистика для специалистов Data Science \n", "\n", "\n", "## Машинное обучение\n", "- [A Course in Machine Learning](http://ciml.info/dl/v0_9/ciml-v0_9-all.pdf) – прекрасный вводный курс в машинное обучение Hal Daume III (PDF)\n", "- [Bayesian Reasoning and Machine Learning](http://web4.cs.ucl.ac.uk/staff/D.Barber/pmwiki/pmwiki.php?n=Brml.HomePage) – качественный, прекрасно оформленный и регулярно обновляемый курс David Barber\n", "- [A First Encounter with Machine Learning](https://www.ics.uci.edu/~welling/teaching/ICS273Afall11/IntroMLBook.pdf) – курс Max Welling, 2011 г. (PDF)\n", "- [Gaussian Processes for Machine Learning](http://www.gaussianprocess.org/gpml/)\n", "- [Introduction to Machine Learning](https://arxiv.org/abs/0904.3664v1) – конспект лекций по машинному обучению Амнона Шашуа (Amnon Shashua), охватывающий темы статистического вывода\n", "- [Machine Learning, Neural and Statistical Classification](http://www1.maths.leeds.ac.uk/~charles/statlog/) – книга 1994 г. Michie, Spiegelhalter, Taylor, основана на проекте StatLog ЕС (ESPRIT), в котором сравниваются и оцениваются методы классификации с оценкой их достоинств, недостатков и диапазонов применения\n", "- [The Elements of Statistical Learning](https://web.archive.org/web/20131027220938/http://www-stat.stanford.edu/~tibs/ElemStatLearn//)\n", "- Murphy. Machine learning a probabilistic perspective — очень объемная и содержательная книга из MIT (~1000 страниц), освещена большая часть мейнстримовых методов машинного обучения\n", "- Hastie, Tibshirani, Friedman. The elements of statistical learning — классический способ начать знакомиться с машинным обучением, если вас не пугает математика\n", "- Richert, Coelho. Building Machine Learning Systems with Python — доступное изложение задач машинного обучения (анализ изображений, текстов, звука) с описанием того, как это сделать в Python\n", "- Harrington. Machine Learning in Action — базовое знакомство с методами машинного обучения, без перегрузки математическими деталями\n", "- Marshland. Machine Learning: An Algorithmic Perspective — приводятся и объясняются реализации разных методов машинного обучения на Python\n", "\n", "# Источники по классической статистике и машинному обучению\n", "\n", "\n", "## Ветки Reddit\n", "- [/learnmachinelearning](https://www.reddit.com/r/learnmachinelearning)\n", "- [/MachineLearning](https://www.reddit.com/r/MachineLearning)\n", "- [/rstats](https://www.reddit.com/r/rstats)\n", "- [/probabilitytheory](https://www.reddit.com/r/probabilitytheory)\n", "- [/pystats](https://www.reddit.com/r/pystats)\n", "- [/statistics](https://www.reddit.com/r/statistics)\n", "\n", "## Чтобы понять – интересно вам это или нет\n", "- [Про машинное обучение простым языком](https://vas3k.ru/blog/machine_learning/)\n", "\n", "## Блокноты Jupyter\n", "- 🌟 [Jupyter Notebook: галерея блокнотов по ML и Data Science](https://proglib.io/p/jupyter-notebook-best) ([ист.](https://github.com/jupyter/jupyter/wiki/A-gallery-of-interesting-Jupyter-Notebooks))\n", "\n", "## Публикации по метрикам\n", "- [Метрики в задачах машинного обучения](https://habr.com/en/company/ods/blog/328372/)\n", "- [Анализ с помощью ROC-кривой](https://wiki.loginom.ru/articles/roc-analysis.html?_ga=2.70714516.50663422.1603560142-625801188.1603560142)\n", "\n", "## Публикации по несбалансированным данным\n", "Можно считать, что выборка несбалансирована, когда размеры классов отличаются более, чем в 10 раз. Больший класс называют доминирующим, меньший класс называется минорным. Качество можно повысить с помощью корректировки весов объектов, искусственной модификации датасета. Accuracy и AUC слабо изменяются при изменении модели, более чувствительна метрика F-Score.\n", "\n", "- [https://www.kaggle.com/mlg-ulb/creditcardfraud](https://www.kaggle.com/mlg-ulb/creditcardfraud)\n", "- [http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf](http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf)\n", "- [Презентация Богдана Мельника (ld86) про обучение на несбалансированных выборках](https://ld86.github.io/ml-slides/unbalanced.html#/22)\n", "- [](https://habr.com/ru/post/349078/)\n", "# Репозитории и программное обеспечение\n", "- [100 репозиториев по машинному обучению](http://meta-guide.com/software-meta-guide/100-best-github-machine-learning)\n", "- [Awesome Machine Learning](https://github.com/josephmisiti/awesome-machine-learning) — тщательно подобранный список фреймворков, библиотек и программного обеспечения для машинного обучения\n", "\n", "# Нейронные сети\n", "# Курсы по нейросетям и глубокому обучению\n", "\n", "- [Нейронные сети, Институт биоинформатики, Stepik](https://stepik.org/course/401), [студенческие материалы на GitHub](https://github.com/stacymiller/stepic_neural_networks_public)\n", "- [Нейронные сети и компьютерное зрение, Samsung Research Russia Open Education](https://stepik.org/course/50352), [студенческие файлы семинаров](https://github.com/smartsinovich/Stepik_NeuralNetworks_and_ComputerVision), [студенческий финальный проект](https://github.com/ValentinKovalev/Samsung-stepik-cv-course-final-task)\n", "- [Нейронные сети и обработка текста, Samsung Research Russia Open Education, Stepik ★4.6](https://stepik.org/course/54098), [материалы курса на GitHub](https://github.com/Samsung-IT-Academy/stepik-dl-nlp)\n", "- [Deep Learning (семестр 1, весна 2020): базовый поток, Stepik](https://stepik.org/course/65388/)\n", "- [Материалы летней школы по глубокому обучению](https://github.com/olferuk/MLSummerSchool) (в форме презентаций и блокнотов Jupyter)\n", "- [Курс \"Современные методы машинного обучения\" ВШЭ](https://github.com/hse-ds/iad-deep-learning) (блокноты Jupyter)\n", "# Книги по нейронным сетям и глубокому обучению\n", "- [A Brief Introduction to Neural Networks](http://www.dkriesel.com/en/science/neural_networks)\n", "- [Neural Networks and Deep Learning](http://neuralnetworksanddeeplearning.com/) – введение в нейронные сети и глубокое обучение с кодом на Python\n", "- [Reinforcement Learning: An Introduction](https://web.archive.org/web/20161120043347/http://webdocs.cs.ualberta.ca:80/~sutton/book/ebook/the-book.html)\n", "- Хайкин. Нейронные сети. Полный курс\n", "- Goodfellow, Bengio, Courville. Deep Learning \n", "# Блоги, каналы и паблики, посвященные вопросам нейронных сетей и глубокого обучения\n", "## Telegram\n", "- [Канал сообщества DeepLearning](https://t.me/deeplearning_ru)\n", "\n", "## VK\n", "- [Deep Learning](https://vk.com/deeplearning)\n", "- [DeepLearning (Глубокие нейронные сети)](https://vk.com/deeplearning_ru)\n", "\n", "## Отдельные статьи\n", "- 🤼 [Генеративно-состязательная нейросеть: ваша первая GAN-модель на PyTorch](https://proglib.io/p/generativno-sostyazatelnaya-neyroset-vasha-pervaya-gan-model-na-pytorch-2020-08-11) ([Jupyter](https://github.com/matyushkin/lessons/blob/master/neural_networks/GAN_intro.ipynb)) ([ист.](https://realpython.com/generative-adversarial-networks/))\n", "- \n", "# Компьютерное зрение\n", "# Курсы по компьютерному зрению\n", "- [Нейронные сети и компьютерное зрение](https://stepik.org/course/50352) (Stepik, ★4.9)\n", "- [Учебный план по основам компьютерного зрения](https://proglib.io/p/cv-plan)\n", "- [Факультатив \"Введение в компьютерное зрение\" (по материалам CS131)](https://github.com/ml-dafe/cv_mipt_minor) (блокноты Jupyter)\n", "# Книги по компьютерному зрению\n", "- [Programming Computer Vision with Python](http://programmingcomputervision.com/)\n", "# Открытые данные для компьютерного зрения\n", "\n", "- [VisualData](https://www.visualdata.io/). Датасеты для компьютерного зрения, разбитые по категориям. Доступен поиск.\n", "# Блоги, соцсети и другие издания, прицельно посвященные вопросам компьютерного зрения\n", "\n", "## Reddit\n", "- [/computervision](https://www.reddit.com/r/computervision)\n", "\n", "\n", "# Геоданные\n", "# Курсы по анализу геоданных\n", "\n", "- [Онлайн-курс «Визуализация геоданных»](https://github.com/minikarma/geotalk) (видео и блокноты Jupyter)\n", "# Книги по обработке геоданных\n", "\n", "## Переведенные на русский язык\n", "- Вестра Э. Разработка геоприложений на языке Python / пер. с англ. А. В. Логунова. – М.: ДМК Пресс, 2017\n", "# Источники геоданных\n", "\n", "[OpenStreetMap](https://www.openstreetmap.org/) позволяет легально использовать картографическую информацию. Еженедельно делается XML-снимок базы данных в виде файла [planet.osm](http://planet.openstreetmap.org/) ([карта базы данных](https://wiki.openstreetmap.org/wiki/Database)). На момент публикации размер bz2-архива составлял 100 Гб. Данные также разрезаются по регионам и выкладываются в форматах PBF- и XML-файлов на [GeoFabrik](http://download.geofabrik.de/). Примеры работы с такими файлами описаны в публикации [OpenStreetMap как источник геоданных](https://habr.com/ru/post/270513/).\n", "\n", "## Другие источники данных\n", "- [Открытый геопространственный консорциум](https://www.ogc.org/) – организация, которая занимается стандартизацией протоколов совместного использования и хранения геоданных: GML, KML, GeoRSS и др.\n", "- [Набор данных государственных границ](http://thematicmapping.org/downloads/world_borders.php)\n", "- Набор данных [Blue Marble Next Generation] – синтезированные NASA безоблачные снимки земной поверхности \n", "\n", "## Проекции\n", "- [Сводная таблица по картографическим проекциям](http://www.radicalcartography.net/?projectionref)\n", "# Публикации по геоданным\n", "\n", "## Визуализация\n", "- [Визуализация результатов выборов в Москве на карте в Jupyter Notebook](https://habr.com/ru/company/ods/blog/338554/)\n", "\n", "## Проекции\n", "- [https://xkcd.com/977/](https://xkcd.com/977/)\n", "- [Ликбез по картографическим проекциям с картинками](https://habr.com/ru/post/235283/)\n", "- [YouTube-ролик о типах проекций разъясняющий типы проекций](http://www.youtube.com/watch?v=2lR7s1Y6Zig#t=305)\n", "# Библиотеки для обработки и визуализации геоданных\n", "\n", "- GDAL – библиотека с открытым исходным кодом (X/MIT) для растровых и векторных форматов геоданных: [сайт](http://www.gdal.org/), [GitHub](https://github.com/OSGeo/gdal)\n", "- GEOS\n", "- Proj\n", "- Mapnik\n", "\n", "## Python\n", "- [Geoviews](https://github.com/holoviz/geoviews)\n", "- [Folium](https://python-visualization.github.io/folium/)\n", "- [KeplerGL](https://kepler.gl/)\n", "- [Plotly/Plotly Express](https://plotly.com/python/mapbox-layers/)\n", "- [IpyLeaflet](https://ipyleaflet.readthedocs.io/en/latest/)\n", "- [Geopandas](https://geopandas.org/)\n", "- Shapely\n", "- pyproj\n", "- GeoDjango\n", "\n", "## R\n", "- геопроекции: [PROJ.4](http://trac.osgeo.org/proj/)\n", "\n", "## JavaScript\n", "- [Leaflet.js](http://leafletjs.com/)\n", "- OpenLayers\n", "\n", "# Коммерческие программы\n", "- GlobalMapper – «славится поддержкой внушительного списка систем координат» (рекомендовал [Moskus](https://habr.com/ru/users/Moskus/) в [посте на Хабре](https://habr.com/ru/post/235283/))\n", "\n", "# Обработка естественного языка\n", "# Курсы по обработке естественного языка\n", "- [Автоматическая обработка естественного языка для студентов 3-4 курсов Школы лингвистики НИУ ВШЭ (1-2 модули 2020)](https://github.com/named-entity/hse-nlp) - [NYU NLP course](http://www.cs.nyu.edu/courses/spring12/CSCI-GA.2590-001/) \n", "- [Нейронные сети и обработка текста](https://stepik.org/course/54098) (Stepik, ★4.6), [материалы курса на GitHub](https://github.com/Samsung-IT-Academy/stepik-dl-nlp)\n", "[Stanford NLP course](https://www.youtube.com/playlist?list=PLoROMvodv4rOhcuXMZkNm7j3fVwBBY42z)\n", "- [Материалы курса по глубокому обучению в обработке естественных языков для магистров компьютерной лингвистики ВШЭ](https://github.com/BobaZooba/HSE-Deep-Learning-in-NLP-Course)\n", "# Книги по обработке естественного языка\n", "- [Jurafsky D., Martin J. Speech and Language Processing](https://web.stanford.edu/~jurafsky/slp3/)\n", "- Goldberg Y. Neural Network Methods for Natural Language Processing\n", "- Natural Language Processing in Action: Understanding, analyzing, and generating text with Python\n", "- [Probabilistic Models in the Study of Language](http://idiom.ucsd.edu/~rlevy/pmsl_textbook/text.html)\n", "- C. Manning, H. Schutze (1999) [Statistical Natural Language Processing](https://nlp.stanford.edu/fsnlp/) \n", "\n", "# Переводные\n", "- Хобсон Лейн, Коул Ховард, Ханнес Хапке «Обработка естественного языка в действии»\n", "\n", "\n", "# Периодика \n", "- [ACL Anthology](http://www.aclweb.org/anthology/) - материалы основных конференций по NLP (полезно следить за ACL, EACL, NAACL, RANLP, EMNLP)\n", "- [Computational Linguistics](https://www.mitpressjournals.org/loi/coli) \n", "- [Natural Language Engineering](https://www.cambridge.org/core/journals/natural-language-engineering)\n", "- Материалы [конференции “Диалог”](http://www.dialog-21.ru/digests) \n", "\n", "# Лингвистические и филологические данные\n", "- [Национальный корпус русского языка](https://ruscorpora.ru/), [другие корпусы](https://ruscorpora.ru/new/corpora-other.html)\n", "\n", "## Параллельные корпуса \n", "- [Europarl](https://www.statmt.org/europarl/) \n", "- [UN Corpus](https://conferences.unite.un.org/UNCorpus/) \n", "- [Opus](http://opus.nlpl.eu/) \n", "\n", "## Международные базы данных, корпусы и датасеты\n", "- [Brown corpus](http://icame.uib.no/brown/bcm.html) \n", "- [Корпуса для английского](https://aclweb.org/aclwiki/Corpora_for_English) \n", "- [HotspotQA Dataset](https://hotpotqa.github.io/) – датасет вопросов-ответов\n", "- [Amazon Reviews](https://snap.stanford.edu/data/web-Amazon.html) – около 35 млн отзывов на Amazon за 18 лет: информация о продукте и пользователе, оценки и сам текст отзыва\n", "- [Google Books Ngrams](https://aws.amazon.com/ru/datasets/google-books-ngrams/) – коллекция слов из Google Книги\n", "- [Blogger Corpus](http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm) – коллекция из 600 тыс. постов с Blogger\n", "- [Wikipedia Links data](https://code.google.com/archive/p/wiki-links/downloads) – каждая из страниц содержит хотя бы одну ссылку на Википедию и текст якоря совпадает или похож на заголовок целевой страницы\n", "- [Gutenberg eBooks List](https://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs) – аннотированный список электронных книг проекта «Гутенберг»\n", "- [Hansards text chunks of Canadian Parliament](https://www.isi.edu/natural-language/download/hansard/) – датасет 1.3 млн пар текстовых файлов, записанных на дебатах 36-го Канадского Парламента\n", "- [Jeopardy](https://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/) – архив 200 тыс. вопросов телевикторины Jeopardy\n", "- [Rotten Tomatoes Reviews](https://drive.google.com/file/d/1w1TsJB-gmIkZ28d1j7sf1sqcPmHXw352/view) – архив 480 тыс. рецензий на фильмы\n", "- [SMS Spam Collection in English](http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/) – 5574 спам-смс на английском\n", "- [Yelp Reviews](https://www.yelp.com/dataset) – датасет от Yelp из 5 млн отзывов\n", "- [UCI’s Spambase](https://archive.ics.uci.edu/ml/datasets/Spambase) – датасет спам-писем\n", "# Блоги, соцсети и другие издания, прицельно посвященные вопросам обработки естественного языка\n", "\n", "## Reddit\n", "- [/LanguageTechnology](https://www.reddit.com/r/LanguageTechnology)\n", "- [/textdatamining](https://www.reddit.com/r/textdatamining)\n", "\n", "## Отдельные статьи\n", "- 💬 [Голосовой DeepFake, или Как работает технология клонирования голоса](https://proglib.io/p/golosovoy-deepfake-ili-kak-rabotaet-tehnologiya-klonirovaniya-golosa-2019-12-11\n", "\n", "### Курсы, лекции, комьюнити \n", "- [https://nlpwithfriends.com/](https://nlpwithfriends.com/) – PhD рассказывают о своих проектах / статьях\n", " - [NLP Highlights](https://soundcloud.com/nlp-highlights) – подкаст про новые статьи\n", "\n", "# Анализ финансовых данных\n", "# Базы данных и источники информации по финансам и имуществу\n", "- [Seldon](https://basis.myseldon.com/ru/) – сервис для анализа сведений о компаниях и предпринимателях из официальных источников\n", "- [Банк России](https://www.cbr.ru/) – информация ЦБ по бюро кредитных историй, внесенных в государственный реестр. Для аналитиков данных интересны разделы [базы данных](https://www.cbr.ru/hd_base/), [аналитика](https://www.cbr.ru/analytics/) (финансовых потоков), [исследования](https://www.cbr.ru/ec_research/), [статистика](hthttp://188.254.71.82/rds_ts_pub/tps://www.cbr.ru/statistics/)\n", "- [Предоставление данных бухгалтерской отчетности по запросам пользователей](https://rosstat.gov.ru/accounting_report) – страница Федеральной службы государственной статистики. Достаточно указать год и ИНН. Отчет можно выгрузить в xlsx\n", "- [Базы данных TKS](https://www.tks.ru/db/): таможня и логистика, банки, СВХ, МДП, брокеры, перевозчики и др.\n", "- [Организации России](http://www.catalogfactory.org/) – финансовые результаты, справочные данные и отзывы\n", "- [Реестр организаций](http://www.reestrtpprf.ru/), включенных в системы Торгово-промышленных палат РФ\n", "- [Информационная система в сфере закупок](https://zakupki.gov.ru/epz/main/public/home.html)\n", "- [BiCoTender](https://www.bicotender.ru/), [Magelan](https://magelan.pro/) – поисковики по государственными и коммерческим тендерам России и СНГ \n", "- [Федресурс](https://fedresurs.ru/) – федеральный реестр сведений о фактах деятельности юридических лиц\n", "- [Декларатор](https://declarator.org/)\n", "\n", "# Базы данных и источники правовой информации\n", "- [Право](https://pravo.ru/) – судебная база, есть [досье судей](https://pravo.ru/judges_search/) и [информация о судах](https://pravo.ru/courts_search/)\n", "- [Федеральные арбитражные суды РФ](http://arbitr.ru/) – [картотека арбитражных дел](http://kad.arbitr.ru/), [решения арбитражных судов](http://ras.arbitr.ru/)\n", "- [Государственная система правовой информации](http://pravo.gov.ru/)\n", "- [Реестр деклараций РФ](http://188.254.71.82/rds_ts_pub/)\n", "- [Судебные и нормативные акты РФ](https://sudact.ru/)\n", "- [Портал правовой статистики](http://www.crimestat.ru/opendata)\n", "\n", "# Big Data\n", "# Курсы по Big Data\n", "- [Hadoop. Система для обработки больших объемов данных](https://stepik.org/course/150/) (Stepik, ★4.8)\n", "- [Материалы курса \"Масштабируемое машинное обучение и анализ больших данных с Apache Spark\"](https://github.com/a4tunado/lectures-hse-spark)\n", "## Блоги, соцсети и другие издания, посвященные общим вопросам Data Science\n", "\n", "### Блоги, посвященные Data Science\n", "- [Список публикаций matyushkin/lessons](https://github.com/matyushkin/lessons)\n", "- [distill.pub](https://distill.pub/)\n", "- [inference.vc](https://www.inference.vc/)\n", "- [karpathy.github.io](https://karpathy.github.io/)\n", "- [deliprao.com](http://deliprao.com/)\n", "- [fastml.com](https://fastml.com/)\n", "- [timvieira.github.io](https://timvieira.github.io/)\n", "- [blogs.princeton.edu](https://blogs.princeton.edu/)\n", "- [offconvex.org](https://www.offconvex.org/)\n", "- [ruder.io](http://ruder.io/)\n", "- [argmin.net](https://www.argmin.net/)\n", "- [nlpers.blogspot.ru](https://nlpers.blogspot.com/)\n", "- [blog.shakirm.com](http://blog.shakirm.com/)\n", "- [blog.paralleldots.com](https://blog.paralleldots.com)\n", "- [alexanderdyakonov.wordpress.com](https://dyakonov.org/)\n", "\n", "### Ветки Reddit\n", "- [/analyzit](https://www.reddit.com/r/analyzit)\n", "- [/datascience](https://www.reddit.com/r/datascience)\n", "- [/datacleaning](https://www.reddit.com/r/datacleaning)\n", "- [/datagangsta](https://www.reddit.com/r/datagangsta)\n", "- [/dataisbeautiful](https://www.reddit.com/r/dataisbeautiful)\n", "- [/dataisugly](https://www.reddit.com/r/dataisugly)\n", "- [/datasets](https://www.reddit.com/r/datasets)\n", "- [/dataviz](https://www.reddit.com/r/dataviz)\n", "- [/JupyterNotebooks](https://www.reddit.com/r/JupyterNotebooks)\n", "- [/opendata](https://www.reddit.com/r/opendata)\n", "\n", "\n", "### Блокноты Jupyter\n", "- 🌟 [Jupyter Notebook: галерея блокнотов по ML и Data Science](https://proglib.io/p/jupyter-notebook-best) ([ист.](https://github.com/jupyter/jupyter/wiki/A-gallery-of-interesting-Jupyter-Notebooks))\n", "\n", "### Slack\n", "- [Open Data Science](http://ods.ai) – то, с чего вообще стоит начинать – самое крупное мировое сообщество \n", "- [Slack Томской группы по ML](https://tomskml.slack.com/) ([анкета для регистрации](https://docs.google.com/forms/d/e/1FAIpQLSdYpgm7T80JpyBPt6NMgRP_4jne7v_qaGFjy8wDrS4fNajMDA/viewform?c=0&w=1))\n", "\n", "### Telegram-каналы о Data Science\n", "- [Новостной канал Open Data Science](https://t.me/opendatascience)\n", "- [Чат по большим данным, обработке и машинному обучению](https://t.me/bigdata_ru)\n", "- [Чат по Data Science](https://t.me/datasciencechat)\n", "- - [Spark in me: Internet, statistics, data science, philosophy](https://t.me/snakers4), [чат канала](https://t.me/joinchat/AAAAAEH9JHYBvaPLvaWPGg)\n", "- [Канал с постами с Reddit на DS-тематику](https://t.me/datascientology)\n", "\n", "### VK-группы о Data Science\n", "- [Data Science](https://vk.com/datascience)\n", "- [Data Mining Labs](https://vk.com/datamininglabs)\n", "- [Группа вк про тренировки по машинному обучению](https://vk.com/mltrainings)\n", "- [Томская группа по машинному обучению](https://vk.com/tomskml)\n", "- [Мемы про машинное обучение для юных леди](https://vk.com/weirdreparametrizationtrick)\n", "- [Python, Data Science, нейросети, ИИ](https://vk.com/python_ds)\n", "\n", "### Facebook-страницы по Data Science\n", "- [ML-тренировки в Москве](https://www.facebook.com/groups/1413405125598651/)\n", "\n", "### ▶️ YouTube и другие видеоплатформы с информацией о Data Science\n", "- [30 YouTube-каналов и плейлистов о Data Science](https://proglib.io/p/30-youtube-kanalov-i-pleylistov-o-data-science-2020-06-17)\n", "- [7 лучших видео TED по тематике Data Science](https://proglib.io/p/7-luchshih-video-ted-po-tematike-data-science-2020-01-20) ([ист.](https://towardsdatascience.com/best-ted-talks-for-data-science-11b699544f))\n", "\n" ] } ], "source": [ "import re\n", "\n", "with open('README.md', mode='r') as file:\n", " lines = file.readlines()\n", " \n", "# cоставляем дерево ссылок\n", "tree = dict()\n", "for line in lines:\n", " path_list = re.findall(r'(?<=\\()[\\w/]*\\.md(?=\\))', line)\n", " if path_list:\n", " section = re.findall(r'^[\\w\\s]*(?= \\|)', line)[0]\n", " tree[section] = path_list\n", "\n", "# выводим содержимое\n", "for key in tree:\n", " print(f'# {key}')\n", " for path in tree[key]:\n", " with open(path) as f:\n", " print(f.read())" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.7.3" } }, "nbformat": 4, "nbformat_minor": 4 } ================================================ FILE: social/social_big_data.md ================================================ # Источники, прицельно посвященные вопросам Big Data ## Reddit ### English - [/bigdata](https://www.reddit.com/r/bigdata/) - [/dataengineering](https://www.reddit.com/r/dataengineering/) ## Telegram ### Русский - [Большие Данные](https://t.me/bigdata_ru) ## Хабы Habr ### Русский - [Big Data](https://habr.com/ru/hub/big_data/) ================================================ FILE: social/social_computer_vision.md ================================================ # Блоги, соцсети и другие издания, прицельно посвященные вопросам компьютерного зрения ## Reddit ### English - [/computervision](https://www.reddit.com/r/computervision) ## YouTube ### English - [Computer Vision Foundation](https://www.youtube.com/channel/UCl2noq1Rda_Uy8fOKfMJ1og) ## Хабы Habr ### Русский - [Компьютерное зрение](https://habr.com/ru/hub/computer_vision/) ================================================ FILE: social/social_data_science.md ================================================ # Блоги, соцсети и другие издания, посвященные общим вопросам Data Science ## Блоги, посвященные Data Science ### Русский - [Список публикаций matyushkin/lessons](https://github.com/matyushkin/lessons) - [alexanderdyakonov.wordpress.com](https://dyakonov.org/) ### English - [distill.pub](https://distill.pub/) - [inference.vc](https://www.inference.vc/) - [karpathy.github.io](https://karpathy.github.io/) - [deliprao.com](http://deliprao.com/) - [fastml.com](https://fastml.com/) - [timvieira.github.io](https://timvieira.github.io/) - [blogs.princeton.edu](https://blogs.princeton.edu/) - [offconvex.org](https://www.offconvex.org/) - [ruder.io](http://ruder.io/) - [argmin.net](https://www.argmin.net/) - [nlpers.blogspot.ru](https://nlpers.blogspot.com/) - [blog.shakirm.com](http://blog.shakirm.com/) - [blog.paralleldots.com](https://blog.paralleldots.com) - [OpenAI блог](https://openai.com/blog/) - [Google AI блог](https://ai.googleblog.com/) - [Facebook AI Research (FAIR) блог](https://ai.facebook.com/blog/) - [Data Elixir](https://dataelixir.com/) – еженедельная рассылка по Data Science и ML ## Сайты с соревнованиями по Data Science ### English - [Kaggle](https://www.kaggle.com/) - [TopCoder](https://www.topcoder.com/) - [DrivenData](https://www.drivendata.org/) - [Zindi](https://zindi.africa/) - [CodaLab](https://competitions.codalab.org/) - [AI Challenger](http://challenge.ai.iqiyi.com/) - [Signate](https://signate.jp/) - [CrowdAI](https://www.aicrowd.com/) - [CrowdAnalytix](https://www.crowdanalytix.com/) ## Ветки Reddit ### English - [/analyzit](https://www.reddit.com/r/analyzit) - [/datascience](https://www.reddit.com/r/datascience) - [/datacleaning](https://www.reddit.com/r/datacleaning) - [/datagangsta](https://www.reddit.com/r/datagangsta) - [/dataisbeautiful](https://www.reddit.com/r/dataisbeautiful) - [/dataisugly](https://www.reddit.com/r/dataisugly) - [/datasets](https://www.reddit.com/r/datasets) - [/dataviz](https://www.reddit.com/r/dataviz) - [/JupyterNotebooks](https://www.reddit.com/r/JupyterNotebooks) - [/opendata](https://www.reddit.com/r/opendata) ## Разделы StackExchange ### English - [Data Science](https://datascience.stackexchange.com/) - [Cross Validated](https://stats.stackexchange.com/) ## Блокноты Jupyter ### Русский - 🌟 [Jupyter Notebook: галерея блокнотов по ML и Data Science](https://proglib.io/p/jupyter-notebook-best) ([ист.](https://github.com/jupyter/jupyter/wiki/A-gallery-of-interesting-Jupyter-Notebooks)) - [Добавляем в Jupyter Notebooks красоту и интерактивность](https://habr.com/ru/post/485318/) (Хабр, OvkHabr) ### English - 🌟 [maelfabien/Machine_Learning_Tutorials](https://github.com/maelfabien/Machine_Learning_Tutorials) ## Slack ### Русский - [Open Data Science](http://ods.ai) – то, с чего вообще стоит начинать – самое крупное мировое сообщество - [Slack Томской группы по ML](https://tomskml.slack.com/) ([анкета для регистрации](https://docs.google.com/forms/d/e/1FAIpQLSdYpgm7T80JpyBPt6NMgRP_4jne7v_qaGFjy8wDrS4fNajMDA/viewform?c=0&w=1)) ## Telegram-каналы о Data Science ### Русский - [Новостной канал сообщества Open Data Science](https://t.me/opendatascience) - [Small Data Science for Russian Adventures](https://t.me/smalldatascience) – канал Александра Дьяконова (dyakonov.org) о машинном обучении, глубоком обучении, анализе данных, науке о данных и математике - [ODS Ru](https://t.me/ods_ru) другой канал, в основном информация о мероприятиях - [Чат по большим данным, обработке и машинному обучению](https://t.me/bigdata_ru) - [Чат по Data Science](https://t.me/datasciencechat) - [Spark in me: Internet, statistics, data science, philosophy](https://t.me/snakers4), [чат канала](https://t.me/joinchat/AAAAAEH9JHYBvaPLvaWPGg) - [Канал с постами с Reddit на DS-тематику](https://t.me/datascientology) - [Библиотека Data Scientist (proglib)](https://t.me/dsproglib) - [Чат ODS Pet Projects](https://t.me/ods_pet_projects) - [Denis Sexy IT](https://t.me/denissexy) – простым языком о нейронных сетях, виртуальной реальности и технологиях - [Machine Learning](https://t.me/ai_machinelearning_big_data) – преимущественно статьи и ссылки на репозитории - [ML p(r)ior](https://t.me/mlprior) – новости из мира ИИ - [gonzo-обзоры ML статей](https://t.me/gonzo_ML) – Канал о AI/ML/DL, биоинформатике, discrete domain, NLP, RL - [Power of data](https://t.me/powerofdata) – канал Петра Ермакова про Data Science и BigData ### English - [Data Science Info](https://t.me/data_science_info) ## VK-группы о Data Science ### Русский - [Python, Data Science, нейросети, ИИ](https://vk.com/python_ds) — группа автора этой подборки - [Data Mining Labs](https://vk.com/datamininglabs) - [Группа вк про тренировки по машинному обучению](https://vk.com/mltrainings) - [Томская группа по машинному обучению](https://vk.com/tomskml) - [Мемы про машинное обучение для юных леди](https://vk.com/weirdreparametrizationtrick) - [Машинное обучение, AI, нейронные сети, Big Data](https://vk.com/mashinnoe_obuchenie_ai_big_data) - [Группа со ссылками на статьи ArXiv](https://vk.com/datascience_ai) - [Cсылки на статьи и новости](https://vk.com/datascience) - [Группа слушателей онлайн-курсов Института биоинформатики](https://vk.com/introstats) - [Deep Learning School](https://vk.com/dlschool_mipt) - Глубокое обучение от Физтех-школы Прикладной Математики и Информатики МФТИ (ГУ) - [Deep Learning](https://vk.com/deeplearning) - [Neurohive](https://vk.com/neurohive) - новости из мира Data Science и Machine Learning ## Facebook-страницы по Data Science ### Русский - [ML-тренировки в Москве](https://www.facebook.com/groups/1413405125598651/) ## ▶️ YouTube и другие видеоплатформы с информацией о Data Science ### Русский - [Computer Science Center](https://www.youtube.com/channel/UC0YHNueF-3Nh3uQT0P4YQZw) -- видеозаписи лекций и докладов преподавателей Computer Science Center, короткие тематические записи на интересные темы в компьютерных науках или программировании. Видео удобно организованы в плейлисты: [машинное обучение](https://www.youtube.com/watch?v=pkI64ocefFU&list=PLlb7e2G7aSpSWVExpq74FnwFnWgLby56L) ([вторая часть](https://www.youtube.com/watch?v=TEyEWTYII64&list=PLlb7e2G7aSpSSsCeUMLN-RxYOLAI9l2ld)), [анализ изображений и видео](https://www.youtube.com/watch?v=zNCvTcoM1I4&list=PLlb7e2G7aSpR6L3pqVh8124ZITsmWckQZ) ([вторая часть](https://www.youtube.com/watch?v=azkzDWi8X64&list=PLlb7e2G7aSpQ4C5ykr2Ce1mfxM01l6_HV)), [введение в обработку естественного языка](https://www.youtube.com/watch?v=1lICvMHJ8RE&list=PLlb7e2G7aSpRTcBciP6VBJJPvdH_DXRXQ), [анализ данных на Python в примерах и задачах](https://www.youtube.com/watch?v=enpPFqcIFj8&list=PLlb7e2G7aSpRb95_Wi7lZ-zA6fOjV3_l7) ([продолжение](https://www.youtube.com/watch?v=enpPFqcIFj8&list=PLlb7e2G7aSpRb95_Wi7lZ-zA6fOjV3_l7)), [анализ данных на R](https://www.youtube.com/watch?v=8mwJ3mEjdIg&list=PLlb7e2G7aSpSSa_PlFEwnd6-3gzAa08_m), [технологии хранения и обработки больших объемов данных](https://www.youtube.com/watch?v=PukjnXwGDaE&list=PLlb7e2G7aSpS_tveNoxgn1Zqmg-VhD95i), [математическая статистика](https://www.youtube.com/watch?v=n_F5V3Bdywk&list=PLlb7e2G7aSpRG_Ve6kuxc9Biuwyf42kJx) - [Open Data Science Video](https://www.youtube.com/channel/UCM9ECBAZtlLeEr-m3ldZ7Tw/videos) -- видео сообщества ods.ai о карьере в Data Science, записи выступлений по специальным вопросам и соревнованиям. - [30 YouTube-каналов и плейлистов о Data Science](https://proglib.io/p/30-youtube-kanalov-i-pleylistov-o-data-science-2020-06-17) - [7 лучших видео TED по тематике Data Science](https://proglib.io/p/7-luchshih-video-ted-po-tematike-data-science-2020-01-20) ([ист.](https://towardsdatascience.com/best-ted-talks-for-data-science-11b699544f)) - [Денис Ширяев](https://www.youtube.com/user/shirman88/videos) с помощью нейросетей «улучшает» качество видео: Москва, Париж, Нью-Йорк и Англия времен Прекрасной эпохи, Луна и Марс начала космических путешествий. Как это работает, мы описали в статье [просто добавь нейросеть: 7 исторических фильмов в 4K и 60 FPS](https://proglib.io/p/prosto-dobav-neyroset-7-istoricheskih-filmov-v-4k-i-60-fps-2020-03-15) - [AI Community](https://www.youtube.com/channel/UCv9uq004VYU_NHUJoW2I0mQ/videos) -- YouTube-канал сообщества людей, заинтересованных в коммерциализации искусственного интеллекта. В рамках проекта [AI Heroes](https://www.youtube.com/watch?v=njuWHbrDlNY&list=PL-NwL8FKfZWf7CwhlyAT9OVWfLMnx9t2n) проводятся регулярные вебинары с ведущими экспертами Data Science - На канале сообщества Open Data Science [ML Trainings](https://www.youtube.com/channel/UCeq6ZIlvC9SVsfhfKnSvM9w/playlists) хранятся записи тренировок с соревнований Kaggle, X5, соревнований по [компьютерному зрению](https://www.youtube.com/watch?v=RUfmEj1MC3k&list=PLTlO6nV_TaGAErLwfEvkll-_tzMjYteYu), [распознаванию изображений](https://www.youtube.com/watch?v=DZIlnmbAnqc&list=PLTlO6nV_TaGD8-uScRs0ko4wfadIwUrML), [обработке естественного языка](https://www.youtube.com/watch?v=XYw0OOnS8GM&list=PLTlO6nV_TaGBEBYaaO5rMl0XCunOzR8S7), [AutoML](https://www.youtube.com/watch?v=t-7Cd4q2eu4&list=PLTlO6nV_TaGAUwdAmW0_QkdTGJv7ZgMEJ), [рекомендательным системам ](https://www.youtube.com/watch?v=-eCr1K9lKxg&list=PLTlO6nV_TaGASWow5ETo-fdC3KzqWb0se) и др. - [Плейлист конференции Data&Science](https://www.youtube.com/watch?v=gE2UqbtZPAc&list=PLJOzdkh8T5ko3zzRRwhowooIqnp58jq1b) -- 95 видео о различных аспектах приложения анализа данных в науке - В записях летних школ [Института биоинформатики](https://www.youtube.com/user/bioinforussia/playlists) встречаются интересные видео [о машинном обучении](https://www.youtube.com/watch?v=qr4plSNW4mk&list=PLjKdf6AHvR-FCfH7b2ADGIqCAeQLDZY_y&index=8), анализе генетических и медицинских данных, [статистике](https://www.youtube.com/watch?v=ykr3X8-thv8) - [Data Science UA](https://www.youtube.com/channel/UCtMLt48fRjCqiUvKemsDzMw/playlists) - записи украинской конференции по Data Science - [Gomel Data Science Community](https://www.youtube.com/channel/UCK3ShrERfCvOGPSG1X9TV9g/videos) -- записи митапов и докладов Data Science-сообщества Гомеля - [Karpov.Courses](https://www.youtube.com/channel/UCiZtj9HjyudBwC2TywG0GzQ/videos) – интервью с представителями русскогоязычного Data Science ### English - [TensorFlow](https://www.youtube.com/channel/UC0rqucBdTuFTjJiefW5t-IQ/playlists) -- канал популярного фреймворка глубокого обучения. Записи с [конференции разработчиков](https://www.youtube.com/watch?v=P4_rJfHpr7k&list=PLQY2H8rRoyvzoUYI26kHmKSJBedn3SQuB), [работа в Colab](https://www.youtube.com/watch?v=inN8seMm7UI&list=PLQY2H8rRoyvyK5aEDAI3wUUqC_F0oEroL), [обработка естественного языка](https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP-MFQZwNmU4S). Есть [небольшой курс на русском языке](https://www.youtube.com/watch?v=qu_WEHvGXWk&list=PLQY2H8rRoyvzTo1p5Hs6hidZHEpx23qtD) - На [YouTube-канале сообщества Towards Data Science](https://www.youtube.com/channel/UCuHZ1UYfHRqk3-5N5oc97Kw/playlists) есть интересная подборка [лучших YouTube-видео по тематикам вблизи Data Science](https://www.youtube.com/watch?v=7R52wiUgxZI&list=PLNj7wSZTYzhlFa9MRiNdmoKNJwj5gjHEg) - На канале freeCodeCamp есть плейлист, посвященный [Deep Learning c PyTorch](https://www.youtube.com/watch?v=vo_fUOk-IKk&list=PLWKjhJtqVAbm3T2Eq1_KgloC7ogdXxdRa). Последнее время вместо плейлистов сообщество предпочитает выпускать длительные (иногда многочасовые) ролики, размеченные тайм-кодами: [анализ данных с Python](https://www.youtube.com/watch?v=r-uOLxNrNk8), [TensorFlow 2.0](https://www.youtube.com/watch?v=tPYj3fFJGjk), [NumPy](https://www.youtube.com/watch?v=QUT1VHiLmmI), [как работают глубокие нейросети](https://www.youtube.com/watch?v=dPWYUELwIdM) - Другое популярное сообщество – DataCamp – преимущественно публикует [видеопособия по языку R](https://www.youtube.com/channel/UC79Gv3mYp6zKiSwYemEik9A/playlists) - Официальный канал самой крупной соревновательной площадки [Kaggle](https://www.youtube.com/channel/UCSNeZleDn9c74yQc-EKnVTA) содержит [видеоуроки для начинающих кэгглеров](https://www.youtube.com/watch?v=GJBOMWpLpTQ&list=PLqFaTIg4myu8gbDh6oBl7XRYNBlthpDEW), записи вебинаров [с чтением интересных научных статей, связанных с алгоритмами науки о данных](https://www.youtube.com/watch?v=PhTF7yJNR70&list=PLqFaTIg4myu8t5ycqvp7I07jTjol3RCl9) и [сессии живого кодинга](https://www.youtube.com/watch?v=uhbWCrXIvqI&list=PLqFaTIg4myu9f21aM1POYVeoaHbFf1hMc) - На канале популярного питониста-обзорщика [sentdex](https://www.youtube.com/user/sentdex/playlists) есть плейлисты о [машинном обучении с использованием Python](https://www.youtube.com/watch?v=OGxgnH8y2NM&list=PLQVvvaa0QuDfKTOs3Keq_kaG2P55YRn5v), [нейронных сетях с нуля на Python](https://www.youtube.com/watch?v=Wo5dMEP_BbI&list=PLQVvvaa0QuDcjD5BAw2DxE6OF2tius3V3), [глубоком обучении с TensorFlow и Keras](https://www.youtube.com/watch?v=wQ8BIBpya2k&list=PLQVvvaa0QuDfhTox0AjmQ6tvTgMBZBEXN), [распознавании лиц](https://www.youtube.com/watch?v=535acCxjHCI&list=PLQVvvaa0QuDcDqgpLLJJM15NpIGNfrKY5) - [DeepMind](https://www.youtube.com/channel/UCP7jMXSY2xbc3KCAE0MHQ-A/playlists) -- канал британской компании, занимающейся искусственным интеллектом, содержит качественные лекции по различным аспектам глубокого обучения - [Springboard](https://www.youtube.com/channel/UCqd6TofKNjqagInm5Waeu7w) публикует [интервью с дата-сайентистами из топовых компаний](https://www.youtube.com/watch?v=qdjR9eAuHDw&list=PLjKxfZpleE6AffdA6XkPZItzcRH7HPqq4) - [3Blue1Brown](https://www.youtube.com/channel/UCYO_jab_esuFRV4b17AJtAw) – анимации, посвященные математике и ее наглядным математическим представлениям - [Data Science Guy](https://www.youtube.com/c/DataScienceGuy/) - [Ken Jee](https://www.youtube.com/channel/UCiT9RITQ9PW6BhXK0y2jaeg) - [Tina Huang](https://www.youtube.com/channel/UC2UXDak6o7rBm23k3Vv5dww) - [Data Professor](https://www.youtube.com/channel/UCV8e2g4IWQqK71bbzGDEI4Q) - [Krish Naik](https://www.youtube.com/user/krishnaik06) - [Imaad Mohamed Khan](https://www.youtube.com/channel/UC6VPXglDoZYMOj2kr-flNJQ) - [Import Data](https://www.youtube.com/c/ImportData1/featured) - [James Briggs](https://www.youtube.com/channel/UCv83tO5cePwHMt1952IVVHw) - [Shashank Kalanithi](https://www.youtube.com/user/95shawshankk19) - [Alex The Analyst](https://www.youtube.com/channel/UC7cs8q-gJRlGwj4A8OmCmXg) - [How to Get an Analytics Job](https://www.youtube.com/channel/UC7T_528unh2ZgnVcx1sl7oA/channels) - [Chris Lovejoy](https://www.youtube.com/channel/UCDoIFHMTKsgIweO-OZt1ecw) - [Anastasia K](https://www.youtube.com/channel/UCbWVgqVWcthADXHgxXJn1bA) - [Data Science Jay](https://www.youtube.com/channel/UCcQx1UnmorvmSEZef4X7-6g) - [Nate at StrataScratch](https://www.youtube.com/channel/UCW8Ews7tdKKkBT6GdtQaXvQ) - [Luke Barousse](https://www.youtube.com/channel/UCLLw7jmFsvfIVaUFsLs8mlQ) - [Madhav Thaker](https://www.youtube.com/user/inferno0709) - [Damsel in Data](https://www.youtube.com/channel/UCenqe6Cvfd47aHAOb9Qe8yA/featured) - [RichardOnData](https://www.youtube.com/channel/UCKPyg5gsnt6h0aA8EBw3i6A) - [Part Time Larry](https://www.youtube.com/channel/UCY2ifv8iH1Dsgjrz-h3lWLQ) - [The High ROI Data Scientist](https://www.youtube.com/channel/UCkYooZtwK_RJAd9SdL1jfeA/featured) - [dataslice](https://www.youtube.com/channel/UCBV194XNr6CIQCCuw1v2rMQ) - [Data Interview Pro](https://www.youtube.com/channel/UCAWsBMQY4KSuOuGODki-l7A) - [Data School](https://www.youtube.com/c/dataschool/featured) - [DataInterview](https://www.youtube.com/channel/UCQSMCVUX1HgrwxJhO_7VrJQ/featured) - [365 Data Science](https://www.youtube.com/c/365DataScience/videos) - [Data Science Society](https://www.youtube.com/channel/UC5Uikv2NXsZ4ZEWOGyW__3A) ## Twitter ### Русский - [Мой список для чтения](https://twitter.com/i/lists/1333460025780658177) ## Хабы Habr ### Русский - [Data Engineering](https://habr.com/ru/hub/data_engineering/) – вопросы сбора и подготовки данных - [Машинное обучение](https://habr.com/ru/hub/machine_learning/) - [Искусственный интеллект](https://habr.com/ru/hub/artificial_intelligence/) - [Data Mining](https://habr.com/ru/hub/data_mining/) - [Открытые данные](https://habr.com/ru/hub/opendata/) - [Визуализация данных](https://habr.com/ru/hub/data_visualization/) - [Хранилища данных](https://habr.com/ru/hub/data_warehouse/) - [R](https://habr.com/ru/hub/r/) - [Julia](https://habr.com/ru/hub/julia/) ## Подкасты, посвященные Data Science и родственным вопросам ### English - [Lex Fridman](https://www.youtube.com/user/lexfridman) - [bitgrit_official](https://www.youtube.com/channel/UCsEdlkbxrAH93NVGFgGtgdA) - [Machine Learning Street Talk](https://www.youtube.com/c/MachineLearningStreetTalk/videos) - [Weights & Biases](https://www.youtube.com/c/WeightsBiases) - [Chai Time Data Science](https://www.youtube.com/c/ChaiTimeDataScience/featured) - [Data Skeptic](https://www.youtube.com/channel/UC60gRMJRjTuTskBnl-LkPAg) - [Data Futurology](https://www.youtube.com/c/datafuturology) - [O'Reilly](https://www.youtube.com/oreilly/featured) - [Towards Data Science](https://www.youtube.com/c/TowardsDataScience/videos) - [Open Data Science](https://www.youtube.com/c/OpenDataScienceCon/videos) - [Springboard](https://www.youtube.com/c/springboard/featured) - [Data Science Salon](https://www.youtube.com/c/DataScienceSalon/featured) - [DeepLearningAI](https://www.youtube.com/c/Deeplearningai) - [The Ravit Show](https://www.youtube.com/channel/UC4yopSSlBfw2WAykLPTYH-w/featured) ## YouTube-каналы организаций, связанных с развитием Data Science ### English - [DeepMind](https://www.youtube.com/c/DeepMind/videos) - [TensorFlow](https://www.youtube.com/c/TensorFlow/featured) - [Google Cloud Tech](https://www.youtube.com/user/googlecloudplatform/featured) - [TensorFlow](https://www.youtube.com/channel/UC0rqucBdTuFTjJiefW5t-IQ) - [HuggingFace](https://www.youtube.com/channel/UCHlNU7kIZhRgSbhHvFoy72w) - [OpenAI](https://www.youtube.com/channel/UCXZCJLdBC09xxGZ6gcdrc6A) - [PyTorch](https://www.youtube.com/channel/UCWXI5YeOsh03QvJ59PMaXFw) - [Kaggle](https://www.youtube.com/user/kaggledotcom) - [H2O.ai](https://www.youtube.com/user/0xdata) - [DataCamp](https://www.youtube.com/c/Datacamp/featured) ================================================ FILE: social/social_finance.md ================================================ # Источники по финансовым данным и аналитике ## Сообщества ### English - [QuantConnect Forum](https://www.quantconnect.com/forum) – сообщество по алгоритмическому трейдингу и обсуждению данных ================================================ FILE: social/social_geospatial.md ================================================ # Публикации по геоданным ## Ветки Reddit ### English - [geospatial](https://www.reddit.com/r/geospatial/) - [gis](https://www.reddit.com/r/gis/) ## Визуализация ### Русский - [Визуализация результатов выборов в Москве на карте в Jupyter Notebook](https://habr.com/ru/company/ods/blog/338554/) ## Проекции ### Русский - [Ликбез по картографическим проекциям с картинками](https://habr.com/ru/post/235283/) ### English - [xkcd.com/977/](https://xkcd.com/977/) - [YouTube-ролик о типах проекций разъясняющий типы проекций](http://www.youtube.com/watch?v=2lR7s1Y6Zig#t=305) ## Отдельные посты ### Русский - Андрей Кармацкий. [Дизайн Яндекс.Карт как наука и увлечение](https://habr.com/ru/company/yandex/blog/185952/) ## Telegram-группы Telegram по тематике ГИС ### Русский - [t.me/gislab](https://t.me/gislab) - [t.me/QGIS_mutual_aid](https://t.me/QGIS_mutual_aid) - [t.me/nextgis_chat](https://t.me/nextgis_chat) - [t.me/spbgeotex](https://t.me/spbgeotex) - [t.me/postgis](https://t.me/postgis) - [t.me/vsevstok_chat](https://t.me/vsevstok_chat) - [t.me/geoserver_ru](https://t.me/geoserver_ru) - [t.me/UAVPro](https://t.me/UAVPro) - [t.me/bygis](https://t.me/bygis) - [t.me/gisconf](https://t.me/gisconf) - [t.me/geofludilka](https://t.me/geofludilka) - [Сообщество природоохранных ГИС](https://t.me/joinchat/Fc0NIRIxIU1Pvx9iRPEipQ) ### English - [QGIS Community](https://t.me/joinchat/Aq2V5RPoxYYhXqUPoxRWPQ) ## Telegram-каналы по тематике ГИС ### Русский - [t.me/geomess](https://t.me/geomess) - [t.me/geosemantica](https://t.me/geosemantica) - [t.me/nextgis_ru](https://t.me/nextgis_ru) - [t.me/rusgisnews](https://t.me/rusgisnews) - [t.me/georg_chronicles](https://t.me/georg_chronicles) ### English - [t.me/geoentelegram](https://t.me/geoentelegram) - [t.me/gistipsITA](https://t.me/gistipsITA) ## Telegram-группы по тематике географических карт ### Русский - [t.me/locus_rus](https://t.me/locus_rus) - [t.me/mapbox_ru](https://t.me/mapbox_ru) - [t.me/mapillary_ru](https://t.me/mapillary_ru) - [t.me/ruosmand](https://t.me/ruosmand) - [t.me/tilerendering](https://t.me/tilerendering) - [t.me/navikey](https://t.me/navikey) - [t.me/ru_localguides](https://t.me/ru_localguides) - [t.me/yndx_mapeditor](https://t.me/yndx_mapeditor) - [t.me/heredev](https://t.me/heredev) - [t.me/SAS_Planet](https://t.me/SAS_Planet) - [ActiveTrip chat](https://t.me/activetripme_community_ru) ### English - [ActiveTrip chat (eng)](https://t.me/activetripme_community) - [ActiveTrip CEO chat](https://t.me/shirokolobovchat) ## Telegram-каналы по тематике географических карт ### Русский - [t.me/mapsanddata](https://t.me/mapsanddata) - [t.me/sputnik_maps](https://t.me/sputnik_maps) - [t.me/gizhru](https://t.me/gizhru) - [t.me/rumapporn](https://t.me/rumapporn) - [t.me/zbikemap_ru](https://t.me/zbikemap_ru) - [ActiveTrip.me](https://t.me/activetripme_ru) ### English - [ActiveTrip.me (eng)](https://t.me/activetripme) - [ActiveTrip CEO](https://t.me/shirokolobov) ## Хабы ### Русский - [Геоинформационные сервисы](https://habr.com/ru/hub/geo/) - [OpenStreetMap](https://habr.com/ru/hub/openstreetmap/) ================================================ FILE: social/social_llm.md ================================================ # Издания и блоги по LLM и генеративному ИИ ### English - [Ahead of AI](https://magazine.sebastianraschka.com/) (Sebastian Raschka) — глубокие разборы LLM-архитектур и методов обучения - [Simon Willison's Weblog](https://simonwillison.net/) — практические эксперименты с LLM-инструментами и API - [Lil'Log](https://lilianweng.github.io/) (Lilian Weng, OpenAI) — обзоры по LLM-агентам, RAG, промптингу - [Latent Space Podcast](https://www.latent.space/) — подкаст с создателями LLM-инструментов и фреймворков - [Hugging Face Blog](https://huggingface.co/blog) — анонсы моделей, методы fine-tuning, бенчмарки ================================================ FILE: social/social_machine_learning.md ================================================ # Источники по классической статистике и машинному обучению ## Чтобы понять – интересно вам это или нет ### Русский - [Про машинное обучение простым языком](https://vas3k.ru/blog/machine_learning/) ## Ветки Reddit ### English - [/learnmachinelearning](https://www.reddit.com/r/learnmachinelearning) - [/MachineLearning](https://www.reddit.com/r/MachineLearning) - [/rstats](https://www.reddit.com/r/rstats) - [/probabilitytheory](https://www.reddit.com/r/probabilitytheory) - [/pystats](https://www.reddit.com/r/pystats) - [/statistics](https://www.reddit.com/r/statistics) ## Блокноты Jupyter ### Русский - 🌟 [Jupyter Notebook: галерея блокнотов по ML и Data Science](https://proglib.io/p/jupyter-notebook-best) ([ист.](https://github.com/jupyter/jupyter/wiki/A-gallery-of-interesting-Jupyter-Notebooks)) ## Публикации по метрикам ### Русский - [Метрики в задачах машинного обучения](https://habr.com/en/company/ods/blog/328372/) - [Анализ с помощью ROC-кривой](https://wiki.loginom.ru/articles/roc-analysis.html?_ga=2.70714516.50663422.1603560142-625801188.1603560142) ## Публикации по несбалансированным данным ### Русский - [Презентация Богдана Мельника (ld86) про обучение на несбалансированных выборках](https://ld86.github.io/ml-slides/unbalanced.html#/22) ### English - [https://www.kaggle.com/mlg-ulb/creditcardfraud](https://www.kaggle.com/mlg-ulb/creditcardfraud) - [http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf](http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf) ## YouTube-каналы, посвященные общим вопросам машинного обучения ### English - [What's AI](https://www.youtube.com/channel/UCUzGQrN-lyyc0BWTYoJM_Sg) - [Daniel Bourke](https://www.youtube.com/channel/UCr8O8l5cCX85Oem1d18EezQ) - [Mark Saroufim](https://www.youtube.com/user/marksaroufim) - [Nicholas Renotte](https://www.youtube.com/c/NicholasRenotte) - [Abhishek Thakur](https://www.youtube.com/c/AbhishekThakurAbhi) - [Aladdin Persson](https://www.youtube.com/c/AladdinPersson) - [CodeEmporium](https://www.youtube.com/c/CodeEmporium/featured) - [Jay Alammar](https://www.youtube.com/channel/UCmOwsoHty5PrmE-3QhUBfPQ) - [Yacine Mahdid](https://www.youtube.com/c/CodeThisCodeThat/featured) - [Henry AI Labs](https://www.youtube.com/channel/UCHB9VepY6kYvZjj0Bgxnpbw/featured) - [Smitha Kolan - Machine Learning Engineer](https://www.youtube.com/channel/UCsh8qhZ4Wm2IJDRsNr_5Z0A) - [AI Coffee Break with Letitia](https://www.youtube.com/c/aicoffeebreak) - [deeplizard](https://www.youtube.com/channel/UC4UJ26WkceqONNF5S26OiVw) - [The Independent Code](https://www.youtube.com/channel/UC1OLIHvAKBQy3o5LcbbxUSg) - [Alfredo Canziani](https://www.youtube.com/c/AlfredoCanziani/featured) - [Cassie Kozyrkov](https://www.youtube.com/channel/UCbOX--VOebPe-MMRkatFRxw/featured) - [AIEngineering](https://www.youtube.com/c/AIEngineeringLife/featured) - [Kapil Sachdeva](https://www.youtube.com/channel/UCk1u5_qq_nrdz13-o5K6beQ) - [AI Coding](https://www.youtube.com/c/AICoding/featured) - [Valerio Velardo - The Sound of AI](https://www.youtube.com/channel/UCZPFjMe1uRSirmSpznqvJfQ) - [mildlyoverfitted](https://www.youtube.com/c/mildlyoverfitted) ### YouTube-каналы, посвященные публикациям в области машинного обучения и ИИ #### English - [AI Journal](https://www.youtube.com/c/AIJournal) - [Arxiv Insights](https://www.youtube.com/channel/UCNIkB2IeJ-6AmZv7bQ1oBYg) - [Yannic Kilcher](https://www.youtube.com/c/YannicKilcher/featured) - [Two Minute Papers](https://www.youtube.com/c/K%C3%A1rolyZsolnai/featured) - [bycloud](https://www.youtube.com/channel/UCgfe2ooZD3VJPB6aJAnuQng) ## Разделы с научными статьями на arXiv.org ### English - cs.LG - Machine Learning: ([new](https://arxiv.org/list/cs.LG/new), [recent](https://arxiv.org/list/cs.LG/recent), [current month](https://arxiv.org/list/cs.LG/current)) - [stat.ML](https://arxiv.org/list/stat.ML/recent) ================================================ FILE: social/social_mlops.md ================================================ # Издания и блоги по MLOps ### English - [Chip Huyen's Blog](https://huyenchip.com/blog/) — статьи о ML-системах, real-time ML, оценке моделей - [MLOps Community](https://mlops.community/) — сообщество практиков: подкаст, Slack, meetups - [Neptune.ai Blog](https://neptune.ai/blog) — практические руководства по experiment tracking и MLOps - [Evidently AI Blog](https://www.evidentlyai.com/blog) — мониторинг ML-моделей, data drift, отчёты - [Eugene Yan's Blog](https://eugeneyan.com/) — статьи о ML в production: RecSys, LLM, системный дизайн ================================================ FILE: social/social_neural_networks.md ================================================ # Блоги, каналы и паблики, посвященные вопросам нейронных сетей и глубокого обучения ## Telegram ### Русский - [Чат Machine Learning](https://t.me/mltrainings) (Cообщество ML Trainigs) - [DeepLearningMachine](https://t.me/deeplearningmachine) - [DS/ML](https://t.me/datasciencechat) ## VK ### Русский - [Нейронные сети](https://vk.com/neural_net) - [Нейронные сети](https://vk.com/neural_nets) - [Neural networks](https://vk.com/neural_nets_education) - [Нейронные сети и глубокое обучение](https://vk.com/neural_nets_edu) ## Отдельные статьи ### Русский - [Глубокое обучение](https://habr.com/ru/post/249879/) ================================================ FILE: social/social_nlp.md ================================================ # Блоги, соцсети и другие издания, прицельно посвященные вопросам обработки естественного языка ## Reddit ### English - [/LanguageTechnology](https://www.reddit.com/r/LanguageTechnology) - [/textdatamining](https://www.reddit.com/r/textdatamining) ## Отдельные статьи ### Русский - 💬 [Голосовой DeepFake, или Как работает технология клонирования голоса](https://proglib.io/p/golosovoy-deepfake-ili-kak-rabotaet-tehnologiya-klonirovaniya-golosa-2019-12) ## Блокноты Jupyter ### Русский - [Анализ эмоциональной окраски текста с помощью spaCy на основе отзывов IMDB](https://github.com/matyushkin/lessons/blob/master/nlp/sentiment_analysis.ipynb) ([в форме статьи](https://proglib.io/p/lyublyu-i-nenavizhu-analiz-emocionalnoy-okraski-teksta-s-pomoshchyu-python-2020-11-13)) ## Сообщество ### English - [https://nlpwithfriends.com/](https://nlpwithfriends.com/) – PhD рассказывают о своих проектах / статьях - [Вики ACL Anthology](https://aclweb.org/aclwiki/Main_Page) - Вики ACL:[раздел с задачами](https://aclweb.org/aclwiki/State_of_the_art) - [NLP Highlights](https://soundcloud.com/nlp-highlights) – подкаст про новые статьи - [NeuroNuggets](https://medium.com/neuromation-blog/neuronuggets-acl-in-review-iv-596c6bcce65f) - [distill.pub](https://distill.pub/) ### Русский - [NLPub](https://nlpub.mipt.ru/) ## YouTube ### Русский - Записи с ML-соревнований по [обработке естественного языка](https://www.youtube.com/watch?v=XYw0OOnS8GM&list=PLTlO6nV_TaGBEBYaaO5rMl0XCunOzR8S7) ## Разделы с научными статьями на arXiv.org ### English - **cs.CL - Computation and Language** ([new](https://arxiv.org/list/cs.CL/new), [recent](https://arxiv.org/list/cs.CL/recent), [current month](https://arxiv.org/list/cs.CL/current)) ================================================ FILE: social/social_time_series.md ================================================ # Издания и блоги по анализу временных рядов ### English - [Hyndsight](https://robjhyndman.com/hyndsight/) (Rob Hyndman) — блог автора forecast и fpp3, новости прогнозирования - [Nixtla Blog](https://www.nixtla.io/blog) — статьи о foundation models для временных рядов (TimeGPT, StatsForecast) - [Forecasting subreddit](https://www.reddit.com/r/forecasting/) — обсуждение методов и инструментов прогнозирования ================================================ FILE: software/software_big_data.md ================================================ # Программы и библиотеки для BigData ## Библиотеки и платформы ### English - [Hadoop](https://hadoop.apache.org/) – набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов - [Hive](https://hive.apache.org/) – система управления базами данных на основе платформы Hadoop - [Spark](https://spark.apache.org/) – фреймворк с открытым исходным кодом для реализации распределённой обработки неструктурированных и слабоструктурированных данных, входящий в экосистему проектов Hadoop - [HBase](http://hbase.apache.org/) – СУБД класса NoSQL с открытым исходным кодом, проект экосистемы Hadoop - [Flink](https://flink.apache.org/) – фреймворк потоковой и пакетной обработки данных - [Airflow](https://airflow.apache.org/) – инструмент, позволяющий удобно и быстро разрабатывать и поддерживать batch-процессы обработки данных ([введение от Адиля Хаштамова](https://khashtamov.com/ru/apache-airflow-introduction/)) - [Kafka](https://kafka.apache.org/) – распределённая, горизонтально масштабируемая система, обеспечивающая наращивание пропускной способности как при росте числа и нагрузки со стороны источников, так и количества систем-подписчиков ([конспект](https://habr.com/ru/post/354486/)) - [Cassandra](http://cassandra.apache.org/) – распределённая система управления базами данных, относящаяся к классу NoSQL-систем и рассчитанная на создание высокомасштабируемых и надёжных хранилищ огромных массивов данных, представленных в виде хэша - [BigQuery](https://cloud.google.com/bigquery/) – RESTful веб-сервис для интерактивного широкомасштабного анализа больших наборов данных, расположенных в Google Storage ([вики](https://ru.wikipedia.org/wiki/BigQuery)) - [Trino](https://trino.io/) – распределенный SQL-движок для аналитики данных - [Vertica](https://www.vertica.com/) – аналитическая колоночная СУБД, которая эффективно сжимает, хранит, быстро отдает данные ([конспект](https://habr.com/ru/company/sberbank/blog/414895/)) - [InfluxDB](https://www.influxdata.com/) – программное обеспечение с открытым исходным кодом для хранения временных рядов ([конспект](https://tproger.ru/translations/influxdb-guide/)) - [h5py](https://www.h5py.org/) – Python-интерфейс для двоичного формата данных HDF5. - [Dask](https://docs.dask.org/en/stable/) – параллельные вычисления и масштабирование Python-нагрузок ================================================ FILE: software/software_computer_vision.md ================================================ # Библиотеки и другие программные решения для задач компьютерного зрения ## Библиотеки ### English - [Pillow](https://pillow.readthedocs.io/en/stable) -- работа со всеми популярными форматами изображений - [OpenCV](https://opencv.org/) – множество различных алгоритмов для работы с изображениями - [scikit-image](https://scikit-image.org/) – продвинутая обработка изображений - [torchvision](https://pytorch.org/vision/stable/index.html) – часть проекта PyTorch для работы с изображениями, `torchvision.datasets` содержит множество популярных датасетов для тестирования алгоритмов computer vision - [Detectron2](https://github.com/facebookresearch/detectron2) – библиотека для задач детекции и сегментации - [MMDetection](https://github.com/open-mmlab/mmdetection) – набор инструментов для детекции и сегментации объектов ## Jupyter and Colab Notebooks о задачах компьютерного зрения ### English - [Google Deep Dream](https://colab.research.google.com/github/tensorflow/docs/blob/master/site/en/tutorials/generative/deepdream.ipynb), [GitHub](https://github.com/tensorflow/docs/blob/master/site/en/tutorials/generative/deepdream.ipynb), [пост Александра Мордвинцева](https://ai.googleblog.com/2015/06/inceptionism-going-deeper-into-neural.html) - [BigGAN](https://colab.research.google.com/github/tensorflow/hub/blob/master/examples/colab/biggan_generation_with_tf_hub.ipynb) [Large Scale GAN Training for High Fidelity Natural Image Synthesis](https://arxiv.org/abs/1809.11096) - [StyleTransfer](https://colab.research.google.com/github/tensorflow/lucid/blob/master/notebooks/differentiable-parameterizations/style_transfer_2d.ipynb) - [_C0D32_ Colab Notebook (trained on 24k Artworks)](https://colab.research.google.com/drive/1cFKK0CBnev2BF8z9BOHxePk7E-f7TtUi) - [WikiART StyleGAN2 Colab Notebook](https://colab.research.google.com/github/Norod/my-colab-experiments/blob/master/WikiArt_Example_Generation_By_Peter_Baylies.ipynb) - [StyleGAN2](https://colab.research.google.com/drive/1ShgW6wohEFQtqs_znMna3dzrcVoABKIH) - DeOldify -- колоризация фото и видео: [GitHub](https://github.com/jantic/DeOldify), [DeOldify for images](https://colab.research.google.com/github/jantic/DeOldify/blob/master/ImageColorizerColab.ipynb), [DeOldify for videos](https://colab.research.google.com/github/jantic/DeOldify/blob/master/VideoColorizerColab.ipynb) - [First Order Motion model](https://colab.research.google.com/github/AliaksandrSiarohin/first-order-model/blob/master/demo.ipynb#scrollTo=UCMFMJV7K-ag), [Project page](https://aliaksandrsiarohin.github.io/first-order-model-website/), [GitHub](https://github.com/AliaksandrSiarohin/first-order-model), [paper](http://papers.nips.cc/paper/8935-first-order-motion-model-for-image-animation) ================================================ FILE: software/software_data_science.md ================================================ # Программное обеспечение, библиотеки и другие готовы решения для общих задач Data Science ## Основные ресурсы ### English - [Docker-образы для Data Science](https://github.com/yang-zhang/docker-setup) ## Классические библиотеки ### English - [NumPy](https://numpy.org/) – работа с многомерными массивами - [SciPy](https://www.scipy.org/) – научные вычисления - [SymPy](http://sympy.org/) – символьные вычисления - [Pandas](https://pandas.pydata.org/) – табличное представление данных и работа с датафреймами - [Polars](https://pola.rs/) – высокопроизводительная библиотека DataFrame - [DuckDB](https://duckdb.org/) – аналитическая in-process SQL-база данных - [Great Expectations](https://greatexpectations.io/) – фреймворк для валидации качества данных ## Библиотеки визуализации ### English - [Matplotlib](http://matplotlib.org/) – визуализация, преимущественно 2D - [Seaborn](https://seaborn.pydata.org/) – базируется на Matplotlib, но оптимизирована под визуализацию задач Data Science - [Bokeh](https://bokeh.org/) – визуализация данных для веба - [Plotly](https://plotly.com/python/) – онлайн-инструмент интерактивной визуализации данных на серверной стороне (публикация в интернете) - [K3D](https://github.com/K3D-tools/K3D-jupyter) – работа с трехмерными графиками и изображениями в Jupyter Notebook - [tqdm](https://github.com/tqdm/tqdm) - визуализация прогресса выполняемого процесса (например, перебор в цикле) ## Контроль версий ### English - [DVC](https://dvc.org/): система контроля версий, позволяющая использовать механику Git для датасетов [туториал на русском](https://proglib.io/p/git-dlya-data-science-kontrol-versiy-modeley-i-datasetov-s-pomoshchyu-dvc-2020-12-02) ## Блокноты Jupyter ### English - [Practical pandas projects](https://github.com/schlende/practical-pandas-projects) – 5 идей для совершенствования навыков Data Science - [Ветка Reddit JupyterNotebooks](https://www.reddit.com/r/JupyterNotebooks) ================================================ FILE: software/software_finance.md ================================================ # Программное обеспечение для анализа финансовых данных ## Основные инструменты ### English - [QuantLib](https://www.quantlib.org/) – библиотека для количественных финансов - [backtrader](https://www.backtrader.com/) – бэктестинг стратегий в Python - [Zipline](https://github.com/quantopian/zipline) – библиотека для алгоритмического трейдинга и бэктестинга - [pandas-datareader](https://github.com/pydata/pandas-datareader) – загрузка финансовых данных в Python ================================================ FILE: software/software_geospatial.md ================================================ # Библиотеки для обработки и визуализации геоданных ## Основные библиотеки ### English - [QGIS](https://qgis.org/download/) – настольная ГИС-платформа с открытым исходным кодом - [PostGIS](https://postgis.net/) – расширение PostgreSQL для работы с геоданными - [GDAL](http://www.gdal.org/) – библиотека с открытым исходным кодом (X/MIT) для растровых и векторных форматов геоданных. - [GEOS](https://libgeos.org/) — C/C++ библиотека для вычислительной геометрии с упором на алгоритмы, используемые в программном обеспечении географических информационных систем. Реализует геометрическую модель OGC Simple Features и предоставляет функции этого стандарта. - [Proj](https://proj.org/) – программное обеспечение для преобразования геопространственных координат в различных системы отсчета. - [Mapnik](https://mapnik.org/) – вывод изображений с использованием картографических алгоритмов, интерфейсы на C++, Python и Node. ## Python ### English - [Geoviews](https://github.com/holoviz/geoviews) - [Folium](https://python-visualization.github.io/folium/) - [KeplerGL](https://kepler.gl/) - [Plotly/Plotly Express](https://plotly.com/python/mapbox-layers/) - [IpyLeaflet](https://ipyleaflet.readthedocs.io/en/latest/) - [Geopandas](https://geopandas.org/) - [Shapely](https://shapely.readthedocs.io/en/stable/manual.html) - [pyproj](https://pyproj4.github.io/pyproj/stable/) - [GeoDjango](https://docs.djangoproject.com/en/4.0/ref/contrib/gis/) - ArcGIS API – библиотека для визуализации и анализа геоданных, а также для управления корпоративной ГИС ([руководство на Хабре](https://habr.com/ru/company/technoserv/blog/324124/)) ## R ### English - геопроекции: [PROJ.4](http://trac.osgeo.org/proj/) - [Leaflet for R](https://rstudio.github.io/leaflet/) – пакет для интеграция популярной JavaScript-библиотеки ## JavaScript ### English - [Leaflet.js](http://leafletjs.com/) – популярная open source библиотека для создания интерактивных карт - [OpenLayers](https://openlayers.org/) – библиотека с открытым исходным кодом на JavaScript, предназначенная для создания карт на базе API ## Коммерческие программы ### Русский - [GlobalMapper](https://www.bluemarblegeo.com/global-mapper/) – «славится поддержкой внушительного списка систем координат» (рекомендовал [Moskus](https://habr.com/ru/users/Moskus/) в [посте на Хабре](https://habr.com/ru/post/235283/)), есть триальный период ================================================ FILE: software/software_llm.md ================================================ # Инструменты для работы с LLM ## Fine-tuning ### English - [PEFT](https://huggingface.co/docs/peft) — Parameter-Efficient Fine-Tuning: LoRA, QLoRA, prefix tuning - [TRL](https://huggingface.co/docs/trl) — Transformer Reinforcement Learning: RLHF, DPO для выравнивания LLM - [Axolotl](https://github.com/axolotl-ai-cloud/axolotl) — обёртка для fine-tuning LLM с поддержкой множества методов - [Unsloth](https://github.com/unslothai/unsloth) — ускоренный fine-tuning LLM (2-5x) с пониженным потреблением памяти ## Инференс и деплой ### English - [vLLM](https://github.com/vllm-project/vllm) — быстрый инференс LLM с PagedAttention и continuous batching - [Ollama](https://ollama.com/) — запуск LLM локально одной командой - [llama.cpp](https://github.com/ggml-org/llama.cpp) — инференс LLM на CPU, квантизация GGUF - [TGI](https://github.com/huggingface/text-generation-inference) (Hugging Face) — production-сервер для LLM ## Фреймворки для LLM-приложений ### English - [LangChain](https://docs.langchain.com/) — оркестрация цепочек вызовов LLM, RAG, агенты - [LlamaIndex](https://www.llamaindex.ai/) — фреймворк для RAG: индексация, поиск, генерация ответов - [DSPy](https://github.com/stanfordnlp/dspy) (Stanford) — программирование LLM вместо ручного промптинга ## Мониторинг и оценка ### English - [LangSmith](https://smith.langchain.com/) — трассировка и отладка LLM-цепочек - [Promptfoo](https://promptfoo.dev/) — тестирование и сравнение промптов ================================================ FILE: software/software_machine_learning.md ================================================ # Репозитории и программное обеспечение для машинного обучения ## Репозитории и подборки ### English - [100 репозиториев по машинному обучению](http://meta-guide.com/software-meta-guide/100-best-github-machine-learning) - [Awesome Machine Learning](https://github.com/josephmisiti/awesome-machine-learning) — тщательно подобранный список фреймворков, библиотек и программного обеспечения для машинного обучения ## Библиотеки машинного обучения ### English - [MLflow](https://github.com/mlflow/mlflow) – платформа для оптимизации разработки приложений машинного обучения, предоставляющая набор облегченных API-интерфейсов к TensorFlow, PyTorch, XGBoost и т. д. - [scikit-learn](https://scikit-learn.org/stable/) – алгоритмы машинного обучения - [xgboost](https://xgboost.readthedocs.io/en/latest/) - [statsmodels](https://www.statsmodels.org/stable/index.html) - [lightgbm](https://lightgbm.readthedocs.io/en/latest/) - [catboost](https://catboost.ai/) - [Hnswlib](https://github.com/nmslib/hnswlib) – библиотека быстрого приближенного поиска ближайших соседей - [Non-Metric Space Library](https://github.com/nmslib/nmslib) – библиотека поиска подобия и набор инструментов для оценки поиска - [Faiss](https://github.com/facebookresearch/faiss) – библиотека для поиска сходства и кластеризации плотных векторов ## Обертки высокого уровня абстракции ### English - [pycaret](https://pycaret.gitbook.io/docs/) ================================================ FILE: software/software_mlops.md ================================================ # Инструменты для MLOps ## Experiment tracking ### English - [MLflow](https://mlflow.org/) — трекинг экспериментов, реестр моделей, деплой - [Weights & Biases](https://wandb.ai/) — логирование экспериментов, визуализация, sweep гиперпараметров - [Neptune.ai](https://neptune.ai/) — трекинг экспериментов и метаданных ML ## Оркестрация пайплайнов ### English - [Kubeflow](https://www.kubeflow.org/) — ML-пайплайны на Kubernetes - [ZenML](https://zenml.io/) — фреймворк для reproducible ML-пайплайнов - [Prefect](https://www.prefect.io/) — оркестрация data/ML-пайплайнов - [Airflow](https://airflow.apache.org/) — планировщик DAG-пайплайнов ## Версионирование данных и метаданных ### English - [DVC](https://dvc.org/) — версионирование данных и ML-моделей поверх Git - [LakeFS](https://lakefs.io/) — Git-подобное версионирование для data lakes - [ML Metadata (MLMD)](https://github.com/google/ml-metadata) (Google) — отслеживание артефактов и линейджа ML-пайплайнов ## Деплой и serving ### English - [BentoML](https://www.bentoml.com/) — упаковка и деплой ML-моделей - [Seldon Core](https://www.seldon.io/) — serving ML-моделей на Kubernetes - [Ray Serve](https://docs.ray.io/en/latest/serve/) — масштабируемый model serving - [Triton Inference Server](https://developer.nvidia.com/triton-inference-server) (NVIDIA) — высокопроизводительный инференс ## Мониторинг ### English - [Evidently](https://www.evidentlyai.com/) — мониторинг data drift и качества моделей - [Whylogs](https://github.com/whylabs/whylogs) — open-source профилирование данных и мониторинг в production ## Feature stores ### English - [Feast](https://feast.dev/) — open-source feature store - [Hopsworks](https://www.hopsworks.ai/) — платформа с feature store, model registry, pipelines ================================================ FILE: software/software_neural_networks.md ================================================ # Библиотеки и другие готовые решения для работы с нейросетями и глубоким обучением ## Библиотеки ### English - [thinc](https://github.com/explosion/thinc) – легкая библиотека глубокого обучения c API функционального программирования с проверкой типов для создания моделей с поддержкой слоев, определенных в других средах, таких как PyTorch, TensorFlow и MXNet - [Keras](https://keras.io/): [документация по API](https://keras.io/api/), [руководства](https://keras.io/guides/) - [TensorFlow](https://www.tensorflow.org/): [документация по API](https://www.tensorflow.org/api_docs) - [PyTorch](https://pytorch.org/) - [Caffe](http://caffe.berkeleyvision.org/) - [JAX](https://docs.jax.dev/) – библиотека массивов и авто‑дифференцирования для численных вычислений ## GPT-подобные нейросети ### Русский - [YaLM 100B](https://github.com/yandex/YaLM-100B) ================================================ FILE: software/software_nlp.md ================================================ # Библиотеки и другие готовы решения задач обработки естественного языка ## Основные библиотеки ### English - [Hugging Face](https://huggingface.co/) – библиотека предобученных моделей на базе архитектуры «трансформер» ## Русский язык ### Русский - [pymorphy2](https://pymorphy2.readthedocs.io/en/stable/) – морфологический анализатор для русского языка на основе словаря OpenCorpora - [youtokentome](https://github.com/VKCOM/YouTokenToMe): инструмент для быстрой токенизации текста от команды ВК - [ruGPT-3 – вариант Сбербанка](https://github.com/sberbank-ai/ru-gpts) ([статья на Хабре о процессе обучения](https://habr.com/ru/company/sberbank/blog/524522/?fbclid=IwAR2E3gx2MgZggqtMdD_5t7j333tAdz24VJXLxQX1zDqSo5GcYVj89ONV-18)) ## Библиотеки и фреймворки ### English - [gensim](https://radimrehurek.com/gensim/) библиотека обработки естественного языка предназначения для «тематического моделирования» - [NLTK](http://nltk.org/) – пакет библиотек и программ для символьной и статистической обработки естественного языка ([вики](https://ru.wikipedia.org/wiki/Natural_Language_Toolkit)) - [spaCy](https://spacy.io/usage/models), [spacy-ru](https://github.com/buriy/spacy-ru) – репозиторий моделей spaCy для русского языка - [thinc](https://github.com/explosion/thinc) – легкая библиотека глубокого обучения c API функционального программирования с проверкой типов для создания моделей с поддержкой слоев, определенных в других средах, таких как PyTorch, TensorFlow и MXNet - [fastText](https://github.com/facebookresearch/fastText) - [Stanza](https://github.com/stanfordnlp/stanza) – NLP-пайплайны от Stanford NLP - [Flair](https://flairnlp.github.io/) – NLP-фреймворк на базе PyTorch ### Русский - [deepPavlov](https://deeppavlov.ai/) – фреймворк для разговорных систем ## GPT ### English - [GPT-2 with Javascript Interface](https://colab.research.google.com/github/gpt2ent/gpt2colab-js/blob/master/GPT2_with_Javascript_interface_POC.ipynb) - [web-implementation of GPT-2](https://talktotransformer.com/) ## Jupyter и Colab ### English - [Colab Notebook by Max Woolf](https://colab.research.google.com/drive/1VLG8e7YSEwypxU-noRNhsv5dW4NfTGce) ================================================ FILE: software/software_time_series.md ================================================ # Инструменты для анализа временных рядов ## Классические методы ### English - [statsmodels](https://www.statsmodels.org/) — ARIMA, SARIMAX, экспоненциальное сглаживание, тесты стационарности - [pmdarima](https://alkaline-ml.com/pmdarima/) — автоматический подбор параметров ARIMA (auto_arima) - [Prophet](https://facebook.github.io/prophet/) (Meta) — прогнозирование с трендами, сезонностью и праздниками - [NeuralProphet](https://neuralprophet.com/) — Prophet + нейросетевые компоненты ## ML и deep learning ### English - [Darts](https://unit8co.github.io/darts/) — унифицированный API для классических и DL-методов прогнозирования - [sktime](https://www.sktime.net/) — scikit-learn-совместимый фреймворк для временных рядов - [tslearn](https://tslearn.readthedocs.io/) — ML для временных рядов: DTW, кластеризация, классификация - [GluonTS](https://ts.gluon.ai/) (Amazon) — вероятностное прогнозирование с deep learning ## Foundation models ### English - [Chronos](https://github.com/amazon-science/chronos-forecasting) (Amazon) — предобученная модель для zero-shot прогнозирования - [TimesFM](https://github.com/google-research/timesfm) (Google) — foundation model для временных рядов - [TimeGPT](https://docs.nixtla.io/) (Nixtla) — generative pretrained model для прогнозирования через API