У нас вы можете посмотреть бесплатно Повышение производительности ИИ: сетевое взаимодействие для вывода ИИ или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
𝗦𝘂𝗺𝗺𝗮𝗿𝘆: Виктор Морено, менеджер по продуктам облачных сетей в Google, рассказывает о важнейшей роли сетей в поддержке вывода ИИ. Узнайте, как Google Cloud внедряет маршрутизацию трафика с учётом ИИ, специализированную балансировку нагрузки и расширения сервисов для оптимизации использования графических процессоров, минимизации задержек и упрощения управления современными рабочими нагрузками ИИ. 𝗖𝗵𝗮𝗹𝗹𝗲𝗻𝗴𝗲: Традиционные сетевые подходы плохо подходят для вывода ИИ. В отличие от стандартного веб-трафика, рабочие нагрузки ИИ сильно варьируются по объёму, и типичные метрики, такие как загрузка ЦП, не отражают фактическую загрузку графического процессора. Использование стандартной циклической балансировки нагрузки часто приводит к отправке трафика на перегруженные реплики, что приводит к задержкам и неэффективности. Кроме того, разработчики сталкиваются с трудностями при управлении несколькими моделями с помощью различных API, а организации испытывают трудности с обеспечением безопасности без создания сложных, разрозненных сетевых топологий. Введение: Для решения этих проблем масштабирования Google Cloud использует GKE Inference Gateway и балансировку нагрузки с поддержкой ИИ. Эта архитектура выходит за рамки простого распределения запросов, используя метрики, специфичные для вывода, такие как использование кэша KV и глубина очереди. Она предоставляет расширенные возможности, такие как кэширование префиксов (маршрутизация запросов к репликам с уже существующим контекстом), маршрутизация на основе тела запроса для идентификации модели и распознавание адаптера LoRA. Кроме того, сетевой уровень теперь поддерживает «расширения служб», что позволяет легко встраивать управление API и функции защиты ИИ непосредственно в поток трафика. 𝗥𝗲𝘀𝘂𝗹𝘁𝘀: Внедряя оптимизированную для ИИ сетевую стратегию, организации могут добиться значительного повышения эффективности использования ресурсов и улучшения пользовательского опыта. Этот подход минимизирует «холодные запуски» за счет интеллектуальной маршрутизации трафика, снижает совокупную стоимость владения за счет максимальной загрузки графических процессоров и ускоряет разработку благодаря унифицированным API. Также повышается безопасность, поскольку защитные барьеры могут очищать запросы и ответы на границе сети до того, как они достигнут модели или конечного пользователя, что позволяет экономить вычислительные затраты на недействительные запросы. *Старейшины* *Старейшины* *Старейшины* *Старейшины* *Старейшины* В статье, опубликованной в журнале «The Inference Gateway», говорится: → «GPU или TPU могут быть полностью загружены, и это не будет видно с помощью традиционных метрик. Поэтому без правильных метрик балансировщик нагрузки может бездумно направлять трафик на реплики, которые фактически перегружены. Шлюз вывода использует такие метрики, как использование кэша KV… используя эти специализированные метрики, наименее загруженные реплики идентифицируются и ранжируются в стеке». → «Балансировщик нагрузки также хранит теневую копию кэшей префиксов в каждой реплике… Шлюз вывода может повторно использовать вычисления предварительного заполнения, выполненные ранее, и полагаться на общность различных запросов на подсказки для снижения нагрузки на графический процессор». → «Одна из очень важных функций — это защитные ограждения ИИ для очистки подсказок и ответов. При поступлении подсказки она отправляет её в службу защитных ограждений… для проверки её соответствия политике. Если да, запрос отбрасывается и возвращается ошибка. Вы даже не отправляете подсказку модели и не тратите деньги на использование графического процессора». 𝗚𝗼𝗼𝗴𝗹𝗲 𝗖𝗹𝗼𝘂𝗱 𝗽𝗿𝗼𝗱𝘂𝗰𝘁𝘀 𝘂𝘀𝗲𝗱: GKE Inference Gateway, Cloud Load Balancing, Google Kubernetes Engine (GKE) 𝗟𝗲𝗮𝗿𝗻 𝗺𝗼𝗿𝗲: → Узнайте больше об AI Inference в Google Cloud: https://cloud.google.com/discover/wha... → Узнайте больше о Cloud Load Balancing: https://cloud.google.com/load-balancing → Узнайте больше о GKE Enterprise: https://cloud.google.com/kubernetes-e...