• ClipSaver
  • dtub.ru
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

[Full Workshop] Reinforcement Learning, Kernels, Reasoning, Quantization & Agents — Daniel Han скачать в хорошем качестве

[Full Workshop] Reinforcement Learning, Kernels, Reasoning, Quantization & Agents — Daniel Han 4 месяца назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
[Full Workshop] Reinforcement Learning, Kernels, Reasoning, Quantization & Agents — Daniel Han
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: [Full Workshop] Reinforcement Learning, Kernels, Reasoning, Quantization & Agents — Daniel Han в качестве 4k

У нас вы можете посмотреть бесплатно [Full Workshop] Reinforcement Learning, Kernels, Reasoning, Quantization & Agents — Daniel Han или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон [Full Workshop] Reinforcement Learning, Kernels, Reasoning, Quantization & Agents — Daniel Han в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



[Full Workshop] Reinforcement Learning, Kernels, Reasoning, Quantization & Agents — Daniel Han

Why is Reinforcement Learning (RL) suddenly everywhere, and is it truly effective? Have LLMs hit a plateau in terms of intelligence and capabilities, or is RL the breakthrough they need? In this workshop, we'll dive into the fundamentals of RL, what makes a good reward function, and how RL can help create agents. We'll also talk about kernels, are they still worth your time and what you should focus on. And finally, we’ll explore how LLMs like DeepSeek-R1 can be quantized down to 1.58-bits and still perform well, along with techniques to maintain accuracy. About Daniel Han I'm building Unsloth and we're an open-source startup trying to make AI more accessible and accurate for everyone! We have 40K GitHub stars, 10M monthly downloads on Hugging Face and worked with Google, Meta, Hugging Face teams to fix bugs in open-source models like Llama, Phi & Gemma models. I was previously working at NVIDIA making TSNE 2000x faster. Recorded at the AI Engineer World's Fair in San Francisco. Stay up to date on our upcoming events and content by joining our newsletter here: https://www.ai.engineer/newsletter Timestamps 00:00 Introduction and Unsloth's Contributions 03:25 The Evolution of Large Language Models (LLMs) 09:47 LLM Training Stages and Yann LeCun's Cake Analogy 16:56 Agents and Reinforcement Learning Principles 23:17 PPO and the Introduction of GRPO 48:12 Reward Model vs. Reward Function 51:22 The Math Behind the Reinforce Algorithm 01:08:50 PPO Formula Breakdown 01:16:29 GRPO Deep Dive 02:00:20 Practical Implementation and Demo with Unsloth 02:33:07 Quantization and the Future of GPUs 02:41:59 Conclusion and Call to Action

Comments
  • Трудные уроки создания эффективных программ для ИИ-агентов – Ник Паш, Клайн 11 часов назад
    Трудные уроки создания эффективных программ для ИИ-агентов – Ник Паш, Клайн
    Опубликовано: 11 часов назад
  • Не создавайте агентов, а развивайте навыки – Барри Чжан и Махеш Мураг, Anthropic 4 дня назад
    Не создавайте агентов, а развивайте навыки – Барри Чжан и Махеш Мураг, Anthropic
    Опубликовано: 4 дня назад
  • Никаких вибраций: решение сложных проблем в сложных кодовых базах – Декс Хорти, HumanLayer 10 дней назад
    Никаких вибраций: решение сложных проблем в сложных кодовых базах – Декс Хорти, HumanLayer
    Опубликовано: 10 дней назад
  • Reinforcement Learning with Verifiable Rewards - Teaching LLMs to Solve Problems 1 месяц назад
    Reinforcement Learning with Verifiable Rewards - Teaching LLMs to Solve Problems
    Опубликовано: 1 месяц назад
  • The Story of Python and how it took over the world | Python: The Documentary 3 месяца назад
    The Story of Python and how it took over the world | Python: The Documentary
    Опубликовано: 3 месяца назад
  • The Philosophy of Software Design – with John Ousterhout 8 месяцев назад
    The Philosophy of Software Design – with John Ousterhout
    Опубликовано: 8 месяцев назад
  • A2A & MCP Workshop: Automating Business Processes with LLMs — Damien Murphy, Bench 4 месяца назад
    A2A & MCP Workshop: Automating Business Processes with LLMs — Damien Murphy, Bench
    Опубликовано: 4 месяца назад
  • Visualizing transformers and attention | Talk for TNG Big Tech Day '24 1 год назад
    Visualizing transformers and attention | Talk for TNG Big Tech Day '24
    Опубликовано: 1 год назад
  • Состояние качества кода в сфере ИИ: шумиха против реальности — Итамар Фридман, Qodo 1 день назад
    Состояние качества кода в сфере ИИ: шумиха против реальности — Итамар Фридман, Qodo
    Опубликовано: 1 день назад
  • Эффективное обучение с подкреплением – Ритм Гарг и Линден Ли, Applied Compute 3 дня назад
    Эффективное обучение с подкреплением – Ритм Гарг и Линден Ли, Applied Compute
    Опубликовано: 3 дня назад
  • Anthropic Co-founder: Building Claude Code, Lessons From GPT-3 & LLM System Design 3 месяца назад
    Anthropic Co-founder: Building Claude Code, Lessons From GPT-3 & LLM System Design
    Опубликовано: 3 месяца назад
  • Jeff Dean & Noam Shazeer — 25 years at Google: from PageRank to AGI 10 месяцев назад
    Jeff Dean & Noam Shazeer — 25 years at Google: from PageRank to AGI
    Опубликовано: 10 месяцев назад
  • Training Agentic Reasoners — Will Brown, Prime Intellect 5 месяцев назад
    Training Agentic Reasoners — Will Brown, Prime Intellect
    Опубликовано: 5 месяцев назад
  • Daniel Han on The Future of Training and Reinforcement Learning 5 месяцев назад
    Daniel Han on The Future of Training and Reinforcement Learning
    Опубликовано: 5 месяцев назад
  • RAG vs. CAG: Solving Knowledge Gaps in AI Models 8 месяцев назад
    RAG vs. CAG: Solving Knowledge Gaps in AI Models
    Опубликовано: 8 месяцев назад
  • Andrej Karpathy: Software Is Changing (Again) 5 месяцев назад
    Andrej Karpathy: Software Is Changing (Again)
    Опубликовано: 5 месяцев назад
  • GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем 1 год назад
    GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем
    Опубликовано: 1 год назад
  • Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 1 - Transformer 1 месяц назад
    Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 1 - Transformer
    Опубликовано: 1 месяц назад
  • 4 Hours Chopin for Studying, Concentration & Relaxation 4 года назад
    4 Hours Chopin for Studying, Concentration & Relaxation
    Опубликовано: 4 года назад
  • Deep Dive into LLMs like ChatGPT 10 месяцев назад
    Deep Dive into LLMs like ChatGPT
    Опубликовано: 10 месяцев назад

Контактный email для правообладателей: [email protected] © 2017 - 2025

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5