У нас вы можете посмотреть бесплатно [Débutant] Que mange un LLM pour savoir tout faire ? или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Pre-training, mid training, post training, instruction tuning, RLHF... on va décortiquer tout ça ! Papiers: https://arxiv.org/abs/2404.06395 MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies https://arxiv.org/abs/2206.07682 Emergent Abilities of Large Language Models https://arxiv.org/abs/2203.02155 Training language models to follow instructions with human feedback https://arxiv.org/abs/2501.12948 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning https://arxiv.org/abs/2510.06826 Mid-Training of Large Language Models: A Survey 00:00 Introduction 00:30 Pre-training 02:44 Next Token Prediction (NTP) 03:47 Base Models (GPT-2, GPT-3) 04:48 Scaling Laws et comportements émergents 09:38 Post-training 10:18 Instruct Tuning (SFT, NTP) 13:02 Reinforcement Learning (RL, PPO) 17:48 RLHF (Reinforcement Learning with Human Feedback) 22:25 DPO (Direct Preference Optimization) 23:46 RL vérifiable 24:48 Prompt: Q + Instructions 28:17 Mid-training : gestion du "catastrophic forgetting" 42:30 Les données utilisées pour les LLM 44:27 La suite 45:47 Questions du public