У нас вы можете посмотреть бесплатно [Тонкая настройка RL] От RLHF к GRPO: эволюция и оптимизация выравнивания моделей LLM в искусстве... или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
В сфере искусственного интеллекта мы годами восхищались масштабом базовых моделей — триллионами параметров и огромными массивами данных. Но сегодня дискуссия изменилась. Речь идёт уже не только о том, сколько знает модель, а о том, как она себя ведёт. Как нам взять необработанную нейронную сеть и привести её в соответствие с человеческими намерениями, безопасностью и сложным мышлением? Мы выходим за рамки простой имитации. Сегодня мы подробно рассмотрим эволюцию и оптимизацию алгоритмов выравнивания базовых моделей. В этом эпизоде мы проследим историю алгоритмов выравнивания — от основополагающих времен контролируемой тонкой настройки (SFT) до прорыва обучения с подкреплением на основе обратной связи от человека (RLHF). Мы рассмотрим, как прямая оптимизация предпочтений (DPO) превратила сложную задачу обучения с подкреплением в изящную и эффективную задачу классификации, и почему последний сдвиг в сторону групповой относительной оптимизации политики (GRPO) наконец-то раскрывает секрет сложных рассуждений в математике и разработке программного обеспечения. Независимо от того, являетесь ли вы исследователем ИИ, разработчиком или просто интересуетесь механизмами, управляющими «призраком в машине», мы разберем теорию игр, автономную оптимизацию и унифицированные архитектуры, которые превращают эти модели в безопасных и способных цифровых агентов.