У нас вы можете посмотреть бесплатно Прекратите использовать RLHF: Как согласовать и контролировать LLM (Руководство DPO) или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Я попросил модель ИИ игнорировать свои фильтры и научить меня воровать в магазинах. Стандартная тонкая настройка выполнила мою просьбу немедленно. Модель, выровненная по алгоритму DPO, отказалась. Традиционное обучение с подкреплением (RLHF) — сложный, нестабильный и дорогостоящий метод. В этом видео мы развенчиваем миф о том, что для выравнивания модели необходима огромная исследовательская группа. Мы разбираем инженерный конвейер оптимизации прямых предпочтений (DPO), показывая, как взять модель с открытым исходным кодом и тонко настроить её в соответствии с вашими конкретными правилами — будь то повышение безопасности или снижение «навязчивости». Мы рассматриваем весь конвейер: от основ «SFT» до отладки «галлюцинаций» (например, когда модель предлагает говяжий фарш в качестве начинки для пиццы) и финального теста на взлом. 🚀 Создайте этот конвейер с помощью Tinker: Код и конфигурации, использованные в этом видео, доступны здесь: Платформа: https://thinkingmachines.ai/tinker/ Документация: https://tinker-docs.thinkingmachines.ai/ 🧠 В этом видео: Ловушка RLHF: Почему стандартное обучение PPO избыточно для большинства разработчиков. Объяснение DPO: Как согласовать модель, используя простые данные о предпочтениях «A против B». Отладка галлюцинаций: Наблюдение за тем, как модель учится различать факты и бессмыслицу типа «закрытый кошелек». Реальность стоимости: Как согласовать модели с бюджетом разработчика-одиночки (в отличие от корпоративных расходов). Тест на взлом: Действительно ли DPO останавливает модель, когда пользователь дает ей команду нарушить правила? ⏱ Временные метки: 00:00 Тест на взлом (Jailbreak Test) 01:04 RLHF против DPO: Дорожная карта 02:12 Этап 1: Контролируемая тонкая настройка (SFT) 02:58 Отладка галлюцинаций 03:41 Почему PPO сложен (Проблема «фарша») 05:13 Переход к DPO (Реализация) 06:44 Оценка стоимости облачных вычислений 07:42 Создание токсичного оценочного набора данных 09:35 Окончательный вердикт: SFT против DPO 🔗 Ресурсы: Набор данных: Anthropic HH-RLHF (открытый исходный код) Метод: Адаптация низкого ранга (LoRA) + DPO #LLMFineTuning #AIAlignment #GenerativeAI #OpenSourceAI #MachineLearning #Tech