У нас вы можете посмотреть бесплатно Обучение с подкреплением и тонкая настройка TPU | Подкаст The Agent Factory или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Благодаря тому, что Gemini 3 превосходит все ожидания, обучаясь и обслуживаясь исключительно на TPU, мы углубляемся в инфраструктуру, которая обеспечивает работу следующего поколения ИИ-агентов. В этом праздничном выпуске The Agent Factory мы выйдем за рамки шумихи и рассмотрим, как разработчики могут использовать TPU и обучение с подкреплением (RL) для создания специализированных, готовых к производству агентов в масштабе. Присоединяйтесь к ведущим Ширу Меиру Ладору и Дону Маккасланду, а также специальному гостю Кайлу Меггсу, менеджеру по продуктам из команды Google TPU Training Team. Мы разберем «почему» и «как» тонкую настройку, критическую роль RL в выравнивании и безопасности модели, а также то, как архитектура TPU от Google обеспечивает непревзойденную эффективность для этих сложных рабочих нагрузок. Кроме того, не пропустите практическую демонстрацию MaxText 2.0, выполняющего задание GRPO на инфраструктуре TPU. В этом эпизоде вы узнаете: 1️⃣ Основы тонкой настройки: Когда следует выбирать тонкую настройку вместо оперативной разработки (с акцентом на специализацию, конфиденциальность и стоимость). 2️⃣ Жизненный цикл модели: Четкое разграничение предварительного и последующего обучения (SFT и RL) с использованием аналогии Андрея Карпати с «учебником по химии». 3️⃣ Углубленный анализ обучения с подкреплением: Когда следует использовать RL? Какую дополнительную ценность оно приносит? Каковы последние достижения в этой области? 4️⃣ Преимущества TPU: Как модули TPU и межчиповое соединение (ICI) решают критические проблемы в крупномасштабной тонкой настройке. 5️⃣ Демонстрация RL на TPU: Технический обзор стека MaxText 2.0, работающего с обучением с подкреплением (GRPO) на TPU Google Cloud. Разделы: 0:00 - Введение: Gemini 3 и появление TPU 3:13 - Зачем нужна тонкая настройка? Специализация и конфиденциальность 3:52 - Что такое тонкая настройка? (Объяснение SFT и RL) 5:50 - Что такое RL и зачем он нам нужен? 7:10 - Дополнительная ценность в обучении с подкреплением 8:33 - Путь отрасли: почему 2025 год - год обучения с подкреплением (DeepSeek-R1, Grok 4, Gemini 3) 10:46 - Проблемы обучения с подкреплением: инфраструктура, алгоритмы и оркестровка 12:52 - Производственный цех: как проектируются TPU для масштабируемости 15:53 - [Демонстрация] Обучение с подкреплением (GRPO) с MaxText 2.0 на TPU 21:46 - Масштабирование до 1000+ чипов и подведение итогов сезона О The Agent Factory: «The Agent Factory» — это технический подкаст для разработчиков, созданный разработчиками, ориентированный на разработку готовых к производству ИИ-агентов. Мы изучаем, как проектировать, создавать, развертывать и управлять агентами, которые приносят реальную пользу. 🔗 Упомянутые ресурсы и ссылки: ➖ Документация после обучения → https://goo.gle/4sbBLAd ➖ Документация Google Cloud TPU (Ironwood) → https://goo.gle/3MMFOCY 🔗 Открытый исходный код Google Cloud: ➖ MaxText → https://goo.gle/4pcDQt4 ➖ Рецепты для GPU → https://goo.gle/495tp4x ➖ Рецепты для TPU → https://goo.gle/4qgMF5U ➖ Андрей Карпати - Химическая аналогия → https://goo.gle/4pQcMAO ➖ Статья: "Small Language Models are the Future of Agentic AI" (Nvidia) → https://goo.gle/4qmLQIH ➖ Блог о тонкой настройке → https://goo.gle/4pR211n 🔔 Подпишитесь на Шир → https://goo.gle/49SAveB 🔔 Подпишитесь на Дона → https://goo.gle/3KKCrff 🔔 Подпишитесь на Кайла → https://goo.gle/4j7Mg3k Присоединяйтесь к обсуждению в социальных сетях с хэштегом #TheAgentFactory. Общайтесь с сообществом на форумах программы Google Developer Program. → https://goo.gle/4oP9bmb Смотрите больше видео Agent Factory → • The Agent Factory 🔔 Подпишитесь на Google Cloud Tech → https://goo.gle/GoogleCloudTech #TPU #ОбучениеСПодкреплением #ТонкаяНастройка Спикеры: Шир Мейр Ладор, Кайл Меггс, Дон МакКасланд Упомянутые продукты: TPU, Gemini 3, Maxtext