• ClipSaver
  • dtub.ru
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

From Prompts to Policies: How RL Builds Better AI Agents [Mahesh Sathiamoorthy] - 731 скачать в хорошем качестве

From Prompts to Policies: How RL Builds Better AI Agents [Mahesh Sathiamoorthy] - 731 7 месяцев назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
From Prompts to Policies: How RL Builds Better AI Agents [Mahesh Sathiamoorthy] - 731
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: From Prompts to Policies: How RL Builds Better AI Agents [Mahesh Sathiamoorthy] - 731 в качестве 4k

У нас вы можете посмотреть бесплатно From Prompts to Policies: How RL Builds Better AI Agents [Mahesh Sathiamoorthy] - 731 или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон From Prompts to Policies: How RL Builds Better AI Agents [Mahesh Sathiamoorthy] - 731 в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



From Prompts to Policies: How RL Builds Better AI Agents [Mahesh Sathiamoorthy] - 731

Today, we're joined by Mahesh Sathiamoorthy, co-founder and CEO of Bespoke Labs, to discuss how reinforcement learning (RL) is reshaping the way we build custom agents on top of foundation models. Mahesh highlights the crucial role of data curation, evaluation, and error analysis in model performance, and explains why RL offers a more robust alternative to prompting, and how it can improve multi-step tool use capabilities. We also explore the limitations of supervised fine-tuning (SFT) for tool-augmented reasoning tasks, the reward-shaping strategies they’ve used, and Bespoke Labs’ open-source libraries like Curator. We also touch on the models MiniCheck for hallucination detection and MiniChart for chart-based QA. 🗒️ For the full list of resources for this episode, visit the show notes page: https://twimlai.com/go/731. 🔔 Subscribe to our channel for more great content just like this: https://youtube.com/twimlai?sub_confi... 🗣️ CONNECT WITH US! =============================== Subscribe to the TWIML AI Podcast: https://twimlai.com/podcast/twimlai/ Follow us on Twitter:   / twimlai   Follow us on LinkedIn:   / twimlai   Join our Slack Community: https://twimlai.com/community/ Subscribe to our newsletter: https://twimlai.com/newsletter/ Want to get in touch? Send us a message: https://twimlai.com/contact/ 📖 CHAPTERS =============================== 00:00 - Introduction 3:54 - Importance of data 7:50 - RL as a tool in data curation 10:21 - Curator 12:34 - Contemporary applications of reinforcement learning (RL) 22:33 - Improving models with RL fine-tuning 24:05 - Improving Multi-Turn Tool Use with RL 26:04 - Advantages of RL 31:06 - Reward shaping 33:50 - Findings in applying RL to tool use 35:42 - Examples of applying RL in tool use 40:57 - Compute of RL vs. SFT 43:25 - Future of democritizing agentic tools 46:20 - Evaluation of results 49:45 - Difference of multi-turn from single-turn tool use 52:46 - MiniChart and MiniCheck 57:32 - Bespoke Labs 58:57 - Future directions 🔗 LINKS & RESOURCES =============================== Improving Multi-Turn Tool Use with Reinforcement Learning - https://www.bespokelabs.ai/blog/impro... Bespoke Curator - https://github.com/bespokelabsai/cura... Bespoke-Minicheck - https://www.bespokelabs.ai/bespoke-mi... MiniChart Playground - https://playground.bespokelabs.ai/min... 📸 Camera: https://amzn.to/3TQ3zsg 🎙️Microphone: https://amzn.to/3t5zXeV 🚦Lights: https://amzn.to/3TQlX49 🎛️ Audio Interface: https://amzn.to/3TVFAIq 🎚️ Stream Deck: https://amzn.to/3zzm7F5

Comments
  • Context Engineering for Productive AI Agents [Filip Kozera] - 741 4 месяца назад
    Context Engineering for Productive AI Agents [Filip Kozera] - 741
    Опубликовано: 4 месяца назад
  • Building the Internet of Agents [Vijoy Pandey] - 737 6 месяцев назад
    Building the Internet of Agents [Vijoy Pandey] - 737
    Опубликовано: 6 месяцев назад
  • Как обучить своего агента: создание надежных агентов с помощью обучения с подкреплением — Кайл Ко... 5 месяцев назад
    Как обучить своего агента: создание надежных агентов с помощью обучения с подкреплением — Кайл Ко...
    Опубликовано: 5 месяцев назад
  • Inside Nano Banana 🍌 and the Future of Vision-Language Models [Oliver Wang] - 748 3 месяца назад
    Inside Nano Banana 🍌 and the Future of Vision-Language Models [Oliver Wang] - 748
    Опубликовано: 3 месяца назад
  • U of T Robotics Institute Seminar: Sergey Levine (UC Berkeley) 9 месяцев назад
    U of T Robotics Institute Seminar: Sergey Levine (UC Berkeley)
    Опубликовано: 9 месяцев назад
  • LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры 1 год назад
    LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры
    Опубликовано: 1 год назад
  • Scaling Agentic Inference Across Heterogeneous Compute [Zain Asgar] - 757 3 недели назад
    Scaling Agentic Inference Across Heterogeneous Compute [Zain Asgar] - 757
    Опубликовано: 3 недели назад
  • Не создавайте агентов, а развивайте навыки – Барри Чжан и Махеш Мураг, Anthropic 2 недели назад
    Не создавайте агентов, а развивайте навыки – Барри Чжан и Махеш Мураг, Anthropic
    Опубликовано: 2 недели назад
  • 19 Tips to Better AI Fine Tuning 11 месяцев назад
    19 Tips to Better AI Fine Tuning
    Опубликовано: 11 месяцев назад
  • AI Agents and Data Integration with GPT and LLaMa with Jerry Liu - 628 2 года назад
    AI Agents and Data Integration with GPT and LLaMa with Jerry Liu - 628
    Опубликовано: 2 года назад
  • Вертикальные ИИ-агенты могут быть в 10 раз крупнее SaaS 1 год назад
    Вертикальные ИИ-агенты могут быть в 10 раз крупнее SaaS
    Опубликовано: 1 год назад
  • Все стратегии RAG объясняются за 13 минут (без лишних слов) 1 месяц назад
    Все стратегии RAG объясняются за 13 минут (без лишних слов)
    Опубликовано: 1 месяц назад
  • Будущее ИИ, о чём молчит Кремниевая долина — интервью с Демисом Хассабисом, CEO DeepMind 4 дня назад
    Будущее ИИ, о чём молчит Кремниевая долина — интервью с Демисом Хассабисом, CEO DeepMind
    Опубликовано: 4 дня назад
  • Переосмысление предварительной подготовки для агентного ИИ [Ааканша Чоудери] - 759 9 дней назад
    Переосмысление предварительной подготовки для агентного ИИ [Ааканша Чоудери] - 759
    Опубликовано: 9 дней назад
  • Но что такое нейронная сеть? | Глава 1. Глубокое обучение 8 лет назад
    Но что такое нейронная сеть? | Глава 1. Глубокое обучение
    Опубликовано: 8 лет назад
  • Reinforcement Learning from Human Feedback (RLHF) Explained 1 год назад
    Reinforcement Learning from Human Feedback (RLHF) Explained
    Опубликовано: 1 год назад
  • Cursor AI: полный гайд по вайб-кодингу (настройки, фишки, rules, MCP) 5 месяцев назад
    Cursor AI: полный гайд по вайб-кодингу (настройки, фишки, rules, MCP)
    Опубликовано: 5 месяцев назад
  • Серебро по $71 — это ГЛУБОКИЙ НАРКОЗ, который уничтожит ваш КАПИТАЛ | Уоррен Баффет 1 день назад
    Серебро по $71 — это ГЛУБОКИЙ НАРКОЗ, который уничтожит ваш КАПИТАЛ | Уоррен Баффет
    Опубликовано: 1 день назад
  • Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение 1 год назад
    Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение
    Опубликовано: 1 год назад
  • Multimodal AI Models on Apple Silicon with MLX [Prince Canuma] - 744 4 месяца назад
    Multimodal AI Models on Apple Silicon with MLX [Prince Canuma] - 744
    Опубликовано: 4 месяца назад

Контактный email для правообладателей: [email protected] © 2017 - 2025

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5