• ClipSaver
  • dtub.ru
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

Why RL Won — Kyle Corbitt, OpenPipe (acq. CoreWeave) скачать в хорошем качестве

Why RL Won — Kyle Corbitt, OpenPipe (acq. CoreWeave) 4 недели назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Why RL Won — Kyle Corbitt, OpenPipe (acq. CoreWeave)
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: Why RL Won — Kyle Corbitt, OpenPipe (acq. CoreWeave) в качестве 4k

У нас вы можете посмотреть бесплатно Why RL Won — Kyle Corbitt, OpenPipe (acq. CoreWeave) или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон Why RL Won — Kyle Corbitt, OpenPipe (acq. CoreWeave) в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



Why RL Won — Kyle Corbitt, OpenPipe (acq. CoreWeave)

In this deep dive with Kyle Corbitt, co-founder and CEO of OpenPipe (recently acquired by CoreWeave), we explore the evolution of fine-tuning in the age of AI agents and the critical shift from supervised fine-tuning to reinforcement learning. Kyle shares his journey from leading YC's Startup School to building OpenPipe, initially focused on distilling expensive GPT-4 workflows into smaller, cheaper models before pivoting to RL-based agent training as frontier model prices plummeted. The conversation reveals why 90% of AI projects remain stuck in proof-of-concept purgatory - not due to capability limitations, but reliability issues that Kyle believes can be solved through continuous learning from real-world experience. He discusses the breakthrough of RULER (Relative Universal Reinforcement Learning Elicited Rewards), which uses LLMs as judges to rank agent behaviors relatively rather than absolutely, making RL training accessible without complex reward engineering. Kyle candidly assesses the challenges of building realistic training environments for agents, explaining why GRPO (despite its advantages) may be a dead end due to its requirement for perfectly reproducible parallel rollouts. He shares insights on why LoRAs remain underrated for production deployments, why GEPA and prompt optimization haven't lived up to the hype in his testing, and why the hardest part of deploying agents isn't the AI - it's sandboxing real-world systems with all their bugs and edge cases intact. The discussion also covers OpenPipe's acquisition by CoreWeave, the launch of their serverless reinforcement learning platform, and Kyle's vision for a future where every deployed agent continuously learns from production experience. He predicts that solving the reliability problem through continuous RL could unlock 10x more AI inference demand from projects currently stuck in development, fundamentally changing how we think about agent deployment and maintenance. Key Topics: The rise and fall of fine-tuning as a business model Why 90% of AI projects never reach production RULER: Making RL accessible through relative ranking The environment problem: Why sandboxing is harder than training GRPO vs PPO and the future of RL algorithms LoRAs: The underrated deployment optimization Why GEPA and prompt optimization disappointed in practice Building world models as synthetic training environments The $500B Stargate bet and OpenAI's potential crypto play Continuous learning as the path to reliable agents References   / kcorbitt   Aug 2023 https://openpipe.ai/blog/from-prompts... DEC 2023 https://openpipe.ai/blog/mistral-7b-f... JAN 2024 https://openpipe.ai/blog/s-lora MAY 2024 https://openpipe.ai/blog/the-ten-comm...    • The GenAI Maturity Curve or  You Probably ...   Oct 2024 https://openpipe.ai/blog/announcing-d... AIE NYC 2025 Finetuning 500m agents    • Finetuning: 500m AI agents in production w...   AIEWF 2025 How to train your agent (ART-E)    • How to Train Your Agent: Building Reliable...   SEPT 2025 ACQUISTION https://openpipe.ai/blog/openpipe-cor... W&B Serverless RL https://openpipe.ai/blog/serverless-r...

Comments
  • Terminal-Bench: Pushing Claude Code, OpenAI Codex, Factory Droid, et al to the limits 3 недели назад
    Terminal-Bench: Pushing Claude Code, OpenAI Codex, Factory Droid, et al to the limits
    Опубликовано: 3 недели назад
  • «Open AI — это пузырь»! Откровения из Кремниевой долины | Братья Либерманы 2 недели назад
    «Open AI — это пузырь»! Откровения из Кремниевой долины | Братья Либерманы
    Опубликовано: 2 недели назад
  • Обмен Массированными Ударами💥 Орестополь и Рох Зачищены✅ Военные Сводки 14.11.2025 6 часов назад
    Обмен Массированными Ударами💥 Орестополь и Рох Зачищены✅ Военные Сводки 14.11.2025
    Опубликовано: 6 часов назад
  • Ep 18: Petaflops to the People — with George Hotz of tinycorp 2 года назад
    Ep 18: Petaflops to the People — with George Hotz of tinycorp
    Опубликовано: 2 года назад
  • From Startup to $17B Deal: How Co-Founder Roman Chernin’s Nebius Is Building the AI-Native GPU Cloud 1 месяц назад
    From Startup to $17B Deal: How Co-Founder Roman Chernin’s Nebius Is Building the AI-Native GPU Cloud
    Опубликовано: 1 месяц назад
  • ПЕРВЫЕ ПОСЛЕДСТВИЯ САНКЦИЙ ТРАМПА. БЕСЕДА С МИХАИЛОМ КРУТИХИНЫМ Трансляция закончилась 4 часа назад
    ПЕРВЫЕ ПОСЛЕДСТВИЯ САНКЦИЙ ТРАМПА. БЕСЕДА С МИХАИЛОМ КРУТИХИНЫМ
    Опубликовано: Трансляция закончилась 4 часа назад
  • Как обучить своего агента: создание надежных агентов с помощью обучения с подкреплением — Кайл Ко... 3 месяца назад
    Как обучить своего агента: создание надежных агентов с помощью обучения с подкреплением — Кайл Ко...
    Опубликовано: 3 месяца назад
  • ЗВУКОРЕЖИССУРА БУДУЩЕГО 10 дней назад
    ЗВУКОРЕЖИССУРА БУДУЩЕГО
    Опубликовано: 10 дней назад
  • Elon Musk at Ron Baron's Baron Capital Conference, Nov 14, 2025 2 часа назад
    Elon Musk at Ron Baron's Baron Capital Conference, Nov 14, 2025
    Опубликовано: 2 часа назад
  • Яков Кедми: Европа идет к войне, а Россия лишь спокойно реагирует 5 часов назад
    Яков Кедми: Европа идет к войне, а Россия лишь спокойно реагирует
    Опубликовано: 5 часов назад
  • ⚡️Claude Sonnet 4.5 and Anthropic's roadmap for Agents and Developers — Mike Krieger, Anthropic 1 месяц назад
    ⚡️Claude Sonnet 4.5 and Anthropic's roadmap for Agents and Developers — Mike Krieger, Anthropic
    Опубликовано: 1 месяц назад
  • «Очень не люблю двуличие» — Наталья Зубаревич об экономике и фатализме 1 день назад
    «Очень не люблю двуличие» — Наталья Зубаревич об экономике и фатализме
    Опубликовано: 1 день назад
  • ПАНИКА В КИЕВЕ ❗ МИНИСТРЫ БЕГУТ В ЛОНДОН ❗ 9 часов назад
    ПАНИКА В КИЕВЕ ❗ МИНИСТРЫ БЕГУТ В ЛОНДОН ❗
    Опубликовано: 9 часов назад
  • Building Jamba 3B: the tiny Hybrid Transformer State Space Reasoning Model - Barak Lenz, CTO of AI21 1 месяц назад
    Building Jamba 3B: the tiny Hybrid Transformer State Space Reasoning Model - Barak Lenz, CTO of AI21
    Опубликовано: 1 месяц назад
  • Andrew Ng: Building Faster with AI 4 месяца назад
    Andrew Ng: Building Faster with AI
    Опубликовано: 4 месяца назад
  • Украинский фронт - прорыв на Запорожье. Берут десятки сел. Покровск отвлекающий. 14.11.25 6 часов назад
    Украинский фронт - прорыв на Запорожье. Берут десятки сел. Покровск отвлекающий. 14.11.25
    Опубликовано: 6 часов назад
  • ШУЛЬМАН: 7 часов назад
    ШУЛЬМАН: "Вот правда, но этого же не скажешь прямо". Интервью с "категорическим императивом"
    Опубликовано: 7 часов назад
  • Context Engineering for Agents - Lance Martin, LangChain 2 месяца назад
    Context Engineering for Agents - Lance Martin, LangChain
    Опубликовано: 2 месяца назад
  • Теренс Тао: Сложнейшие задачи математики, физики и будущее ИИ | Лекс Фридман Подкаст #472 5 месяцев назад
    Теренс Тао: Сложнейшие задачи математики, физики и будущее ИИ | Лекс Фридман Подкаст #472
    Опубликовано: 5 месяцев назад
  • Эскорт для Путина и мужчины Матвиенко: как женщины выживают в российской политике? 1 день назад
    Эскорт для Путина и мужчины Матвиенко: как женщины выживают в российской политике?
    Опубликовано: 1 день назад

Контактный email для правообладателей: [email protected] © 2017 - 2025

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5