У нас вы можете посмотреть бесплатно Пошаговое руководство для профессионального инженера по машинному обучению в Google Cloud: развер... или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Обзор развертывания и обслуживания моделей GCP Vertex AI для подготовки к экзамену. Основные выводы Онлайн против пакетной обработки: используйте онлайн-прогнозирование для задач в реальном времени с низкой задержкой (менее 100 мс) и пакетную обработку для офлайн-задач с высокой пропускной способностью, что примерно на 50% дешевле. Стоимость против производительности: сбалансируйте стоимость и задержку, выбрав подходящий тип машины (ЦП для простых моделей, ГП для глубокого обучения) и настроив автоматическое масштабирование (минимальное/максимальное количество реплик) в соответствии с характером трафика. Безопасное развертывание: используйте разделение трафика на конечных точках Vertex AI для канареечного развертывания и A/B-тестирования, обеспечивая обновления без простоев и мгновенный откат. Проактивный мониторинг: отслеживайте ключевые показатели (задержка, ошибки, дрейф прогнозов) в Cloud Monitoring, чтобы обнаруживать и оповещать о снижении производительности модели до того, как это повлияет на пользователей. Темы Онлайн-прогнозирование против пакетного прогнозирования Онлайн-прогнозирование: Вариант использования: Принятие решений в реальном времени (например, обнаружение мошенничества, персонализация). Задержка: Низкая (менее 100 мс). Механизм: Конечные точки Vertex AI предоставляют управляемую инфраструктуру (автоматическое масштабирование, балансировка нагрузки). Пакетное прогнозирование: Вариант использования: Автономная обработка больших наборов данных (например, ночные рекомендации). Стоимость: Примерно на 50% дешевле, чем онлайн-прогнозирование. Механизм: Обработка миллионов записей и запись результатов в BigQuery или Cloud Storage. Оптимизация: Использование вытесняемых экземпляров с контрольными точками для дальнейшей экономии. Выбор типа машины и стоимость ЦП (N1/E2): Стоимость: ~0,05–0,20 долл. США/час за реплику. Задержка: 10–100 мс. Варианты использования: Традиционное машинное обучение, небольшие нейронные сети (менее 10 миллионов параметров). GPU (NVIDIA Tesla V100/T4): Стоимость: ~1–3 доллара в час за реплику. Задержка: 5–20 мс. Варианты использования: Большие нейронные сети, компьютерное зрение, трансформеры в обработке естественного языка. Совет к экзамену: Вопросы, определяющие требования к задержке, влияют на выбор. менее 100 мс → достаточно CPU. менее 20 мс → требуется GPU. Автоматическое масштабирование и оптимизация затрат Конфигурация: Установите минимальное и максимальное количество реплик для управления затратами и производительностью. Производство: мин ≥ 2, чтобы предотвратить холодные запуски. Разработка: мин = 0 для минимизации затрат. Шаблоны трафика: Стабильный режим: мин ≈ макс для фиксированной мощности и предсказуемых затрат. Переменные значения: минимум (например, 2) и максимум (например, 10) для масштабирования в зависимости от нагрузки. Пиковое масштабирование: агрессивное масштабирование (например, мин=1, макс=20), если холодные запуски допустимы. Тактика оптимизации: Плановое масштабирование: используйте Cloud Scheduler для настройки реплик под предсказуемый трафик (например, в рабочее время). Оптимизация размера: уменьшите размер экземпляров, если загрузка ЦП менее 30%; увеличьте размер или добавьте реплики, если она превышает 80%. Выбор региона: сбалансируйте стоимость и задержку пользователя (например, us-central1 часто является экономически эффективной базой). Безопасное развертывание с разделением трафика Канареечное развертывание: Направьте небольшой процент трафика (например, 5%) на новую версию модели. Отслеживайте метрики (частота ошибок, задержка, качество). Постепенно увеличивайте трафик (10% → 25% → 50% → 100%), если всё работает хорошо. Немедленно откатывайте изменения, устанавливая трафик новой версии на 0%, если возникают проблемы. A/B-тестирование: Разделите трафик 50/50 между двумя версиями для сравнения бизнес-показателей (например, конверсии). Разверните статистически значимый победитель на 100% трафика. Многомодельное обслуживание: Разверните несколько специализированных моделей на одной конечной точке (например, обнаружение мошенничества, оценка рисков). Направляйте запросы к правильной модели на основе входных характеристик или заголовков. Оптимизация контейнеров Влияние: Размер контейнера напрямую влияет на время запуска, скорость автоматического масштабирования и стоимость. Многоэтапные сборки Docker: Этап сборки: Устанавливает все зависимости и компилирует код. Этап выполнения: Копирует только артефакт модели и зависимости времени выполнения. Результат: Меньший по размеру и более быстро запускающийся контейнер (например, 0,5 ГБ против 2 ГБ), что ускоряет автоматическое масштабирование и снижает затраты. Оптимизация производительности Пул соединений: Снижает задержку и вариативность за счет повторного использования соединений. Параллельные запросы прогнозирования: Обрабат...