У нас вы можете посмотреть бесплатно System design - проектируем web crawler или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Проектирую web crawler, обходящий 50 млрд веб-страниц за неделю. С масштабируемостью и отказоустойчивостью. Комментарии-правки: 15:54 primary key не (domain, url, state), а (domain, state, url) 16:07 allowedRPS в табличке не int, а float - некоторые сайты разрешают запросы раз в несколько секунд Тайм-коды: 00:00 Функциональные требования 01:10 Нефункциональные требования 07:04 Схема системы 08:03 Шаги (флоу) 11:34 Эффективный планировщик (scheduling). Проблемы, из-за которых Kafka и обычный брокер сообщений (очередь) не подойдет. 13:17 Kafka vs Amazon SQS 14:19 Схема с планировщиком (scheduler-ом) доменов 18:30 Планировщик: код для получения доменов через Redis 20:31 Планировщик: главный вывод 23:03 Общая схема ✅ 24:40 Дедубликация по содержимому страниц 25:14 Масштабируемость и отказоустойчивость 27:40 Выбор баз данных