У нас вы можете посмотреть бесплатно Почему ваши темы для диссертаций не работают: секрет успешной подготовки к получению степени маги... или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Вы когда-нибудь задумывались, почему идеально составленная подсказка или тщательно подобранный набор данных для тонкой настройки оказываются неэффективными? Проблема не всегда в ваших инструкциях — возможно, вы боретесь с фундаментальной природой модели. В этом видео подробно рассматривается важный урок из обучения с подкреплением на основе больших языковых моделей (LLM): принцип взаимодействия «по политике». Мы разбираем, почему принуждение LLM следовать сценарию, на котором она не обучалась («вне политики»), может привести к низкой производительности, нестабильности и даже галлюцинациям. Вы освоите новую ментальную модель работы с LLM, понимая их не как простые машины, выполняющие инструкции, а как системы с собственным глубоко усвоенным распределением знаний. Мы рассматриваем практические методы взаимодействия «по политике», которые вы можете применять уже сегодня: *Подсказки:* Как заставить модель раскрыть свои собственные внутренние структуры данных и предпочтительную формулировку для получения более надежных результатов. * *Тонкая настройка:* Более безопасные способы внедрения новых фактов и моделей поведения без искажения основных знаний модели. Прекратите бороться с моделью: научитесь быть «мастером работы с моделями» и создавайте более надежные и предсказуемые приложения ИИ, работая в гармонии с природой LLM, а не против нее. Статьи и ресурсы Упомянута лекция Денни Чжоу в Стэнфорде: • Stanford CS25: V5 I Large Language Model R... [LLM могут рассуждать без подсказок](https://arxiv.org/abs/2402.10200) - Google (2024) [Самосогласованность улучшает цепочку рассуждений в языковых моделях](https://arxiv.org/abs/2203.11171) - Google (2022) [ReFT: Рассуждения с усиленной тонкой настройкой](https://arxiv.org/abs/2401.08967) - ByteDance (2024) Фреймворк DSPy для автоматического запроса «по политике»: https://github.com/stanfordnlp/dspy Разделы 00:00 - Введение: Уроки обучения с подкреплением 01:06 - Как обучаются модели с подкреплением (и почему это проблема) 04:05 - Парадокс вывода: модели, не обученные для собственных результатов 06:14 - Обучение с подкреплением: последствия обучения моделей 08:10 - Три ключевых урока от исследователей ИИ 11:32 - Критическое правило: Политика «в рамках» против политики «вне» 14:38 - Практическое подсказывание: перестаньте принуждать, начните спрашивать 15:50 - Пример 1: Извлечение ограничивающих рамок 17:35 - Пример 2: Создание маркетинговых портретов 22:06 - Более безопасная тонкая настройка с помощью методов «в рамках» 26:17 - Заключение: Станьте «шептуном» моделей О КАНАЛЕ Мой канал посвящен «Искусственному интеллекту» Строитель: разработчик, экспериментатор и энтузиаст практического применения. Мы выходим за рамки заголовков, чтобы понять *механизмы*, лежащие в основе последних исследований, и помогаем вам строить будущее. От лаборатории до вашего ноутбука. СОЦИАЛЬНЫЕ СЕТИ GitHub: https://github.com/mdda LinkedIn: / martinandrews X / Twitter: https://x.com/mdda123 #AI #LLM #MachineLearning #PromptEngineering #FineTuning #ReinforcementLearning #OnPolicy