• ClipSaver
  • dtub.ru
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

How AI Learned to Reason: DeepSeek and o1 Explained скачать в хорошем качестве

How AI Learned to Reason: DeepSeek and o1 Explained 9 дней назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
How AI Learned to Reason: DeepSeek and o1 Explained
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: How AI Learned to Reason: DeepSeek and o1 Explained в качестве 4k

У нас вы можете посмотреть бесплатно How AI Learned to Reason: DeepSeek and o1 Explained или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон How AI Learned to Reason: DeepSeek and o1 Explained в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



How AI Learned to Reason: DeepSeek and o1 Explained

How AI Learned to Think: The Complete Technical Breakdown DeepSeek R1 and OpenAI o1 have changed the game, but how do these models actually "think"? This video is a technical deep dive into the breakthrough that allowed AI to move from simple imitation (Supervised Fine-Tuning) to genuine reasoning via Reinforcement Learning (RL). While earlier LLMs were sophisticated models trained on human data, they often failed at complex, multi-step logic. The unlock wasn't just bigger models; it was giving them the "time to think" during inference. This video explains how shifting from imitating human traces to optimizing against verifiable reward functions created emergent reasoning behaviors, like self-correction and backtracking, even though no human ever explicitly taught them. This video explains exactly HOW reinforcement learning taught AI to reason, from the 2022 "chain-of-thought" discovery to DeepSeek R1's emergent self-correction. No hype, just the actual algorithms, training pipelines, and mathematical foundations that power today's thinking models. ------------------ CHAPTERS ------------------ 0:00 - The Impossible Leap (o1's breakthrough moment) 0:34 - The Discovery Hidden in Plain Sight (chain-of-thought prompting) 1:12 - Beyond Linear Thinking (tree-of-thought search) 1:47 - The Imitation Trap (why copying humans fails) 2:21 - The RLHF Foundation (InstructGPT's 100x improvement) 3:00 - Teaching AI to Learn from Success (sparse rewards) 3:32 - Step-by-Step Feedback (process reward models) 4:05 - The Credit Assignment Challenge (500 tokens, 1 signal) 4:34 - The Policy: AI's Decision Engine (probability distributions) 5:05 - Predicting Future Success (value functions) 5:35 - Learning from Outcomes (policy gradients) 6:06 - Gaming the System (reward hacking & verifiable rewards) 6:37 - The REINFORCE Algorithm (variance problem) 7:08 - Better Than Average (advantage functions) 7:46 - Stable Learning at Scale (PPO clipping) 8:18 - The Emergence of Machine Thinking (DeepSeek R1 & GRPO) 8:56 - The Current Reality Check (current limitations) 9:29 - Multiple Paths Forward (future directions) --------------------------------------------- KEY PAPERS & RESOURCES --------------------------------------------- Chain-of-Thought Prompting (Wei et al., 2022) - https://arxiv.org/abs/2201.11903 InstructGPT / RLHF (Ouyang et al., 2022) - https://arxiv.org/abs/2203.02155 Let's Verify Step by Step - Process Reward Models (Lightman et al., 2023) - https://arxiv.org/abs/2305.20050 OpenAI o1 System Card (2024) - https://arxiv.org/abs/2412.16720v1 DeepSeek-R1 Technical Report (2025) - https://arxiv.org/abs/2501.12948 DeepSeekMath - GRPO Algorithm (Shao et al., 2024) - https://arxiv.org/abs/2402.03300 Proximal Policy Optimization (Schulman et al., 2017) - https://arxiv.org/abs/1707.06347 GSM8K Math Benchmark - https://github.com/openai/grade-schoo... AIME (American Invitational Mathematics Examination) - https://artofproblemsolving.com/wiki/... #ai #machinelearning #reinforcementlearning #llm #openai #deepseek #o1 #o3 #chainofthought #ppo #rlhf #neuralnetworks #airesearch #deeplearning #reasoning #aiexplained #techeducation #aireasoning #reasoning

Comments
  • Joints EVERY Mechanical Engineer Should Know 8 дней назад
    Joints EVERY Mechanical Engineer Should Know
    Опубликовано: 8 дней назад
  • Gemini 3 заставил меня пересмотреть использование ChatGPT 12 дней назад
    Gemini 3 заставил меня пересмотреть использование ChatGPT
    Опубликовано: 12 дней назад
  • Год с Gemini: Почему я не перейду в ChatGPT (и при чем тут Antigravity?) 7 дней назад
    Год с Gemini: Почему я не перейду в ChatGPT (и при чем тут Antigravity?)
    Опубликовано: 7 дней назад
  • Every Country Roasted in Family Guy 3 недели назад
    Every Country Roasted in Family Guy
    Опубликовано: 3 недели назад
  • ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию? 1 месяц назад
    ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?
    Опубликовано: 1 месяц назад
  • Кто пишет код лучше всех? Сравнил GPT‑5.2, Opus 4.5, Sonnet 4.5, Gemini 3, Qwen 3 Max, Kimi, GLM 2 недели назад
    Кто пишет код лучше всех? Сравнил GPT‑5.2, Opus 4.5, Sonnet 4.5, Gemini 3, Qwen 3 Max, Kimi, GLM
    Опубликовано: 2 недели назад
  • Новое расширение Claude для Chrome: секретное оружие, которое должен использовать каждый 1 месяц назад
    Новое расширение Claude для Chrome: секретное оружие, которое должен использовать каждый
    Опубликовано: 1 месяц назад
  • AlphaFold - The Most Useful Thing AI Has Ever Done 11 месяцев назад
    AlphaFold - The Most Useful Thing AI Has Ever Done
    Опубликовано: 11 месяцев назад
  • Я попробовал все нейросети для видео! Какую выбрать? МОЙ ТОП 3 месяца назад
    Я попробовал все нейросети для видео! Какую выбрать? МОЙ ТОП
    Опубликовано: 3 месяца назад
  • Why Light Speed Is The LIMIT? What Feynman Uncovered Will COLLAPSE Your Mind 3 недели назад
    Why Light Speed Is The LIMIT? What Feynman Uncovered Will COLLAPSE Your Mind
    Опубликовано: 3 недели назад
  • How Continual Learning May Be Solved in AI (TITANS Explained) 13 часов назад
    How Continual Learning May Be Solved in AI (TITANS Explained)
    Опубликовано: 13 часов назад
  • AI expert exposes why he left OpenAI 1 месяц назад
    AI expert exposes why he left OpenAI
    Опубликовано: 1 месяц назад
  • What we learned from the 3-body problem 4 дня назад
    What we learned from the 3-body problem
    Опубликовано: 4 дня назад
  • ChatGPT vs Gemini vs Perplexity: Полный СРАВНИТЕЛЬНЫЙ АНАЛИЗ (Free vs Pro) | Как не платить за AI? 5 дней назад
    ChatGPT vs Gemini vs Perplexity: Полный СРАВНИТЕЛЬНЫЙ АНАЛИЗ (Free vs Pro) | Как не платить за AI?
    Опубликовано: 5 дней назад
  • Лучший документальный фильм про создание ИИ 3 недели назад
    Лучший документальный фильм про создание ИИ
    Опубликовано: 3 недели назад
  • Что такое эмбеддинги? Объяснение векторных представлений 3 дня назад
    Что такое эмбеддинги? Объяснение векторных представлений
    Опубликовано: 3 дня назад
  • 21 неожиданный способ использовать Gemini в повседневной жизни 9 дней назад
    21 неожиданный способ использовать Gemini в повседневной жизни
    Опубликовано: 9 дней назад
  • Тренды в ИИ 2026. К чему готовиться каждому. 1 месяц назад
    Тренды в ИИ 2026. К чему готовиться каждому.
    Опубликовано: 1 месяц назад
  • How LLMs Actually Understand Images. 4 недели назад
    How LLMs Actually Understand Images.
    Опубликовано: 4 недели назад
  • Бывший рекрутер Google объясняет, почему «ложь» помогает получить работу. 1 месяц назад
    Бывший рекрутер Google объясняет, почему «ложь» помогает получить работу.
    Опубликовано: 1 месяц назад

Контактный email для правообладателей: u2beadvert@gmail.com © 2017 - 2026

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5