У нас вы можете посмотреть бесплатно ORPO: НОВЫЙ метод выравнивания DPO и SFT для LLM или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Вместо классического выравнивания SFT и DPO для обучения наших LLM доступен новый метод. Инновационный монолитный алгоритм оптимизации отношения шансов ORPO, не требующий референтной модели, устраняет необходимость в дополнительной фазе выравнивания предпочтений. Новый метод SFT с выравниванием предпочтений. Мы рассматриваем эту идею с точки зрения теоретической физики и отмечаем сходство с методологиями регуляризационных членов. Мы также исследуем концептуальное сходство между множителем Лагранжа и новыми поправочными членами в дополнение к классическому функционалу потерь SFT. Показатели производительности ORPO приведены в сравнении с моделями LLama 2 и Mistral 7B. ORPO: Монолитная оптимизация предпочтений без референтной модели https://arxiv.org/pdf/2403.07691v2.pdf