• ClipSaver
  • dtub.ru
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

Self-Reflecting LLMs: Reinforcement Learning That Boosts Reasoning [Maohao Shen] - 726 скачать в хорошем качестве

Self-Reflecting LLMs: Reinforcement Learning That Boosts Reasoning [Maohao Shen] - 726 8 месяцев назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Self-Reflecting LLMs: Reinforcement Learning That Boosts Reasoning [Maohao Shen] - 726
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: Self-Reflecting LLMs: Reinforcement Learning That Boosts Reasoning [Maohao Shen] - 726 в качестве 4k

У нас вы можете посмотреть бесплатно Self-Reflecting LLMs: Reinforcement Learning That Boosts Reasoning [Maohao Shen] - 726 или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон Self-Reflecting LLMs: Reinforcement Learning That Boosts Reasoning [Maohao Shen] - 726 в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



Self-Reflecting LLMs: Reinforcement Learning That Boosts Reasoning [Maohao Shen] - 726

Today, we're joined by Maohao Shen, PhD student at MIT to discuss his paper, “Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search.” We dig into how Satori leverages reinforcement learning to improve language model reasoning—enabling model self-reflection, self-correction, and exploration of alternative solutions. We explore the Chain-of-Action-Thought (COAT) approach, which uses special tokens—continue, reflect, and explore—to guide the model through distinct reasoning actions, allowing it to navigate complex reasoning tasks without external supervision. We also break down Satori’s two-stage training process: format tuning, which teaches the model to understand and utilize the special action tokens, and reinforcement learning, which optimizes reasoning through trial-and-error self-improvement. We cover key techniques such “restart and explore,” which allows the model to self-correct and generalize beyond its training domain. Finally, Maohao reviews Satori’s performance and how it compares to other models, the reward design, the benchmarks used, and the surprising observations made during the research. 🎧 / 🎥 Listen or watch the full episode on our page: https://twimlai.com/go/726. 🔔 Subscribe to our channel for more great content just like this: https://youtube.com/twimlai?sub_confi... 🗣️ CONNECT WITH US! =============================== Subscribe to the TWIML AI Podcast: https://twimlai.com/podcast/twimlai/ Follow us on Twitter:   / twimlai   Follow us on LinkedIn:   / twimlai   Join our Slack Community: https://twimlai.com/community/ Subscribe to our newsletter: https://twimlai.com/newsletter/ Want to get in touch? Send us a message: https://twimlai.com/contact/ 📖 CHAPTERS =============================== 00:00 - Introduction 3:40 - How Satori paper fits into current trends in the AI research field 11:03 - Motivation of Satori 17:01- Autoregressive search 21:20 - Chain-of-Action-Thought Reasoning (COAT) 23:11 - Challenges 23:54 - COAT reasoning, imitation learning, and format tuning 28:42 - Two stages of training 34:18 - Relationship of format tuning and self-improvement 37:47 - Performance 39:46 - Reward design of the RL component 42:27 - Base model 44:21 - Benchmarks and results 48:32 - Future directions 🔗 LINKS & RESOURCES =============================== Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search - https://arxiv.org/abs/2502.02508 📸 Camera: https://amzn.to/3TQ3zsg 🎙️Microphone: https://amzn.to/3t5zXeV 🚦Lights: https://amzn.to/3TQlX49 🎛️ Audio Interface: https://amzn.to/3TVFAIq 🎚️ Stream Deck: https://amzn.to/3zzm7F5

Comments
  • Inside the “Neurons” of LLMs: Circuit Tracing Their Hidden Biology [Emmanuel Ameisen] - 727 8 месяцев назад
    Inside the “Neurons” of LLMs: Circuit Tracing Their Hidden Biology [Emmanuel Ameisen] - 727
    Опубликовано: 8 месяцев назад
  • Creator of AI WARNS: “You Won't Believe The Truth 6 дней назад
    Creator of AI WARNS: “You Won't Believe The Truth"
    Опубликовано: 6 дней назад
  • Если гравитон должен существовать, то почему мы его не нашли? 4 дня назад
    Если гравитон должен существовать, то почему мы его не нашли?
    Опубликовано: 4 дня назад
  • [Full Workshop] Reinforcement Learning, Kernels, Reasoning, Quantization & Agents — Daniel Han 5 месяцев назад
    [Full Workshop] Reinforcement Learning, Kernels, Reasoning, Quantization & Agents — Daniel Han
    Опубликовано: 5 месяцев назад
  • Genie 3: A New Frontier for World Models [Jack Parker-Holder and Shlomi Fruchter] - 743 4 месяца назад
    Genie 3: A New Frontier for World Models [Jack Parker-Holder and Shlomi Fruchter] - 743
    Опубликовано: 4 месяца назад
  • Multimodal AI Models on Apple Silicon with MLX [Prince Canuma] - 744 3 месяца назад
    Multimodal AI Models on Apple Silicon with MLX [Prince Canuma] - 744
    Опубликовано: 3 месяца назад
  • Будущее ИИ, о чём молчит Кремниевая долина — интервью с Демисом Хассабисом, CEO DeepMind 3 дня назад
    Будущее ИИ, о чём молчит Кремниевая долина — интервью с Демисом Хассабисом, CEO DeepMind
    Опубликовано: 3 дня назад
  • Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности 1 месяц назад
    Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности
    Опубликовано: 1 месяц назад
  • LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры 1 год назад
    LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры
    Опубликовано: 1 год назад
  • Серебро по $71 — это ГЛУБОКИЙ НАРКОЗ, который уничтожит ваш КАПИТАЛ | Уоррен Баффет 11 часов назад
    Серебро по $71 — это ГЛУБОКИЙ НАРКОЗ, который уничтожит ваш КАПИТАЛ | Уоррен Баффет
    Опубликовано: 11 часов назад
  • Управление ИИ для умных городов и предприятий [Робин Браун и Люк Норрис] - 755 1 месяц назад
    Управление ИИ для умных городов и предприятий [Робин Браун и Люк Норрис] - 755
    Опубликовано: 1 месяц назад
  • Почему мы верим телефонным мошенникам? — Семихатов, Ениколопов 1 день назад
    Почему мы верим телефонным мошенникам? — Семихатов, Ениколопов
    Опубликовано: 1 день назад
  • Обучение с подкреплением для агентов — Уилл Браун, исследователь машинного обучения в Morgan Stanley 9 месяцев назад
    Обучение с подкреплением для агентов — Уилл Браун, исследователь машинного обучения в Morgan Stanley
    Опубликовано: 9 месяцев назад
  • Куда девается ФОТОН когда СВЕТ ГАСНЕТ? | ЧТО ВООБЩЕ ТАКОЕ СВЕТ? 7 часов назад
    Куда девается ФОТОН когда СВЕТ ГАСНЕТ? | ЧТО ВООБЩЕ ТАКОЕ СВЕТ?
    Опубликовано: 7 часов назад
  • Как ИИ научился думать 1 год назад
    Как ИИ научился думать
    Опубликовано: 1 год назад
  • (How) Do LLMs Reason? (Talk given at MILA/ChandarLab) 4 месяца назад
    (How) Do LLMs Reason? (Talk given at MILA/ChandarLab)
    Опубликовано: 4 месяца назад
  • ВЕЛИКИЙ ОБМАН ЕГИПТА — Нам врали о строительстве пирамид 2 недели назад
    ВЕЛИКИЙ ОБМАН ЕГИПТА — Нам врали о строительстве пирамид
    Опубликовано: 2 недели назад
  • Deep Dive into LLMs like ChatGPT 10 месяцев назад
    Deep Dive into LLMs like ChatGPT
    Опубликовано: 10 месяцев назад
  • Reinforcement Learning from Human Feedback (RLHF) Explained 1 год назад
    Reinforcement Learning from Human Feedback (RLHF) Explained
    Опубликовано: 1 год назад
  • Reinforcement Learning (RL) for LLMs 9 месяцев назад
    Reinforcement Learning (RL) for LLMs
    Опубликовано: 9 месяцев назад

Контактный email для правообладателей: [email protected] © 2017 - 2025

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5