У нас вы можете посмотреть бесплатно Как обучить своего агента: создание надежных агентов с помощью обучения с подкреплением — Кайл Ко... или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Вы когда-нибудь запускали потрясающую демонстрацию агента, а потом обнаруживали, что никакие подсказки не сделают её достаточно надёжной для внедрения в эксплуатацию? Надёжность агента — невероятно сложная задача! В этом докладе мы узнаем, как использовать GRPO, чтобы помочь вашему агенту учиться на своих успехах и неудачах и со временем совершенствоваться. Мы наблюдали впечатляющие результаты применения этой технологии, например, когда показатель успешности агента-помощника по электронной почте вырос с 74% до 94% после замены o4-mini на модель с открытым исходным кодом, оптимизированную с помощью GRPO. Мы поделимся примерами из практики и практическими уроками, касающимися типов задач, для которых это эффективно, и неожиданных ловушек, которых следует избегать. О Кайле Корбитте Кайл Корбитт — соучредитель и генеральный директор OpenPipe, компании, предоставляющей услуги по последующему обучению рефералов. OpenPipe обучил тысячи моделей клиентов как для крупных предприятий, так и для передовых технологических стартапов. До основания OpenPipe Кайл руководил командой Startup School в Y Combinator, которая отвечала за продукты и контент, создаваемые YC для компаний на ранних стадиях развития. До этого он работал инженером в Google и изучал машинное обучение в школе. Запись сделана на Всемирной выставке AI Engineer в Сан-Франциско. Будьте в курсе наших предстоящих мероприятий и материалов, подписавшись на нашу рассылку здесь: https://www.ai.engineer/newsletter Временные метки: [00:00] — Введение в создание надежных агентов с помощью обучения с подкреплением. [00:49] — Пример использования: ART-E, помощник по электронной почте с искусственным интеллектом. [02:19] — Важность использования моделей с подсказками перед переходом на обучение с подсказками. [03:17] — Повышение производительности обучения с подсказками по сравнению с моделями с подсказками. [05:18] — Преимущества подхода с подсказками с точки зрения затрат и задержек. [08:02] — Две самые сложные проблемы в современном RL: реалистичные среды и функции вознаграждения. [13:13] — Оптимизация поведения агента с помощью «дополнительных вознаграждений». [15:25] — Проблема «взлома вознаграждения» и способы её решения. [18:37] — Решение проблемы «взлома вознаграждения»: