У нас вы можете посмотреть бесплатно Reward Models | Data Brew | Episode 40 или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
In this episode, Brandon Cui, Research Scientist at Mosaic ML and Databricks, dives into cutting-edge advancements in AI model optimization, focusing on Reward Models and Reinforcement Learning from Human Feedback (RLHF). Highlights include: How synthetic data and RLHF enable fine-tuning models to generate preferred outcomes. Techniques like Policy Proximal Optimization (PPO) and Direct Preference Optimization (DPO) for enhancing response quality. The role of reward models in improving coding, math, reasoning, and other NLP tasks. Learn more about these concepts: https://www.databricks.com/blog/fine-... Connect with Brandon Cui: / bcui19