У нас вы можете посмотреть бесплатно Когда AWS выходит из строя. Как предотвратить сбой в работе вашей инфраструктуры или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
В этом специальном выпуске, посвящённом сбою AWS, Стайн Де Хаес рассказывает нам о том, что произошло во время сбоя AWS в октябре 2025 года. Затем он подробно останавливается на ограниченном влиянии этого сбоя на Dataminded и его продукт Conveyor. И, наконец, он даёт 4 совета о том, как защитить себя от подобных сбоев. 👉 Ссылка на запись в блоге: https://hubs.li/Q03PQKrR0 💡 Основные выводы «Глобальные» сервисы AWS могут по-прежнему иметь зависимости от одного региона. Регионализация и репликация ресурсов значительно повышают устойчивость. Внешние зависимости увеличивают риск — дублируйте то, что наиболее важно. Подготовка важнее реакции — отработайте свои действия в случае сбоя до того, как он произойдёт. 🔥 Что произошло Крупный сбой в работе AWS в регионе US-East-1 (Северная Вирджиния) затронул такие глобальные сервисы, как Slack, Outlook, Strava, Steam и многие другие. Причиной сбоя стала неверная настройка DNS в AWS, затронувшая IAM и DynamoDB. Более 140 сервисов AWS были затронуты, в том числе IAM, EC2 и DynamoDB. Конфигурация IAM (управление удостоверениями и доступом) была недоступна, что препятствовало обновлению ролей и политик, но кэшированные учётные данные позволили продолжить выполнение большинства рабочих нагрузок. Несмотря на то, что AWS является «глобальным», многие «глобальные» сервисы по-прежнему физически централизованы в Северной Вирджинии, что делает её единой точкой отказа. 🧠 Как это повлияло на Dataminded и Conveyor Conveyor (планировщик и исполнитель заданий Dataminded) обнаружил сбой заблаговременно с помощью систем оповещения. Клиентские рабочие нагрузки в основном поддерживались на прежнем уровне благодаря ранее достигнутым улучшениям в области устойчивости: IAM настроен на использование региональных конечных точек. Образы контейнеров реплицированы локально в региональные реестры ECR вместо общедоступных ECR. Незначительные проблемы возникли из-за одной устаревшей зависимости, по-прежнему указывающей на общедоступный ECR. Кластеры Azure были косвенно затронуты, поскольку реестр Red Hat quay.io (K.io) размещен в AWS. Отсутствовали простои плоскости управления Conveyor; влияние было ограничено новыми развертываниями и извлечением образов. Хотите улучшить свои навыки в области инженерии данных? Присоединяйтесь к нашей предстоящей Зимней школе по инженерии данных 2026 в Лёвене, которая пройдет с 2 по 6 февраля 2026 года. Пятидневная практическая программа, разработанная и проводимая опытными специалистами по работе с данными, сочетающая практические семинары с онлайн-видеоуроками. ✅ Обучение на английском языке ✅ Скидка 15% при ранней регистрации до 30 декабря ✅ Доступно для участия в программе KMO-portefeuille 👉 Узнайте больше и зарегистрируйтесь: https://www.dataminded.com/academy Главы 00:00 Введение 00:33 Понимание сбоя AWS: обзор 01:53 Сбой AWS — что произошло? 03:06 IAM и его роль в сервисах AWS 05:04 Предотвращение будущих сбоев: рекомендации 05:41 Как сбой повлиял на Dataminded? 07:39 Понимание надежности контейнеров Docker 08:31 Смягчение сбоев AWS 08:44 Смягчение 1 — Использование региональных конечных точек 08:59 Смягчение 2 — Удаление зависимости от общедоступных ECR 09:26 Смягчение 3 — Удаление внешних зависимостей 10:36 Смягчение 4 — Подготовка! — использование руководства по аварийному восстановлению 11:53 Проведение настольных учений по обеспечению готовности 13:23 Краткое описание смягчения: 4 ключевых действия 13:51 Общее резюме