У нас вы можете посмотреть бесплатно Вашим агентам-ИИ пришлось заплатить 12 000 долларов из-за отсутствия возможности наблюдения (испр... или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Ваш агент работал. Пользователи были довольны. Трафик был в норме. Получите бесплатные шаблоны производства, ресурсы и слайды - https://community.nachiketh.in Подготовка к ролям в Agentic AI: https://kdp.amazon.com/amazon-dp-acti... (Доступно на всех маркетплейсах) Затем счет AWS показал 12 000 долларов. Ничего не было «сломано». В чем же настоящая проблема? 👉 У вас было логирование, а не мониторинг. В этом видео я подробно разбираю стек мониторинга производства, который мы используем для систем Agentic AI — ту же самую настройку, которая помогла нам обнаружить резкий рост затрат, скачки задержки и скрытые сбои до того, как они переросли в отключения. Это не руководство для начинающих. Вот как производственные команды безопасно запускают агентов в больших масштабах. Что вы узнаете из этого видео 🔍 Ведение логов против наблюдаемости (почему большинство команд терпят неудачу) Почему вывод логов не объясняет скачки затрат Что на самом деле означает наблюдаемость для агентов ИИ Три уровня, которые большинство команд полностью упускают из виду 🧭 Уровень 1: Распределенная трассировка (LangSmith / LangFuse) Трассировка каждого вызова LLM, вызова инструмента, повторной попытки и сбоя Выявление медленных инструментов, бесконечных циклов и штормов повторных попыток Реальный производственный пример: задержка P95 снизилась с 45 с до 3 с 📊 Уровень 2: Метрики (Prometheus + Grafana) Правильное отслеживание задержки P50 / P95 / P99 Мониторинг использования токенов и стоимости запроса Выявление ошибок резервного копирования модели до того, как они приведут к потере средств 📜 Уровень 3: Структурированные логи (CloudWatch / Loki / Datadog) Сбои запросов по пользователям, инструмент или идентификатор запроса Отладка производственных проблем за минуты, а не часы Почему «выводы на печать» бесполезны в производственной среде 🚨 Уровень 4: Оповещения и реагирование на инциденты Работающие оповещения о затратах Оповещения о задержке и частоте ошибок, которые разбудят вас только тогда, когда это необходимо Реальный инцидент PagerDuty в 3 часа ночи и как он был решен за 20 минут 💸 Распределение затрат (это настоящий ключ к решению) Затраты по моделям (GPT-4 против GPT-3.5) Затраты по пользователям, функциям и инструментам Как одно изменение панели мониторинга превратило убытки в прибыль Главный вывод Вы не можете управлять тем, чего не видите. Если ваш агент работает в производственной среде без: Трассировки Метрики Журналов Оповещений Распределения затрат Вы работаете вслепую. И когда что-то ломается, уже слишком поздно. 👨🏫 Хотите полную реализацию в производственной среде? Мы обучаем этому комплексному стеку мониторинга на Agentic AI Enterprise Bootcamp: Настройка LangSmith Панели мониторинга Prometheus + Grafana Шаблоны структурированного логирования Конвейеры анализа затрат Сценарии реагирования на инциденты Реальные примеры из практики в производственной среде 📅 Следующий набор начинается 15 февраля 🔗 https://bootcamp.nachiketh.in