• ClipSaver
  • dtub.ru
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

Prof. Natasha Jaques: Multi-agent Reinforcement Learning (MARL) for LLMs скачать в хорошем качестве

Prof. Natasha Jaques: Multi-agent Reinforcement Learning (MARL) for LLMs 3 месяца назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Prof. Natasha Jaques: Multi-agent Reinforcement Learning (MARL) for LLMs
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: Prof. Natasha Jaques: Multi-agent Reinforcement Learning (MARL) for LLMs в качестве 4k

У нас вы можете посмотреть бесплатно Prof. Natasha Jaques: Multi-agent Reinforcement Learning (MARL) for LLMs или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон Prof. Natasha Jaques: Multi-agent Reinforcement Learning (MARL) for LLMs в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



Prof. Natasha Jaques: Multi-agent Reinforcement Learning (MARL) for LLMs

Talk Title: Multi-agent Reinforcement Learning (MARL) for LLMs Speaker: Senior Research Scientist · Natasha Jaques · Google DeepMind Talk Abstract: Reinforcement Learning (RL) fine-tuning of Large Language Models (LLMs) has shown incredible promise, starting with RL from human feedback, and continuing into recent results using verifiable rewards for reasoning tasks. However, previous to the LLM era most major successes of RL were not single-agent, but used techniques like self-play to unlock continuous self-improvement. I will discuss how to apply these multi-agent techniques to LLMs, enabling scalable training to improve reasoning and provably safe LLMs. First, we introduce a self-play safety game, where an attacker and defender LLM co-evolve through a zero-sum adversarial game. The attacker attempts to find prompts which elicit an unsafe response from the defender, as judged by a reward model. Both agents use a hidden chain-of-thought to reason about how to develop and defend against attacks. Using well-known game theoretic results, we show that if this game converges to the Nash equilibrium, the defender will output a safe response for any string input. Empirically, we show that our approach produces a model that is safer than models trained with RLHF, while retaining core chatting and reasoning capabilities. Second, I will discuss how to use self-play on games to improve capabilities on math and reasoning benchmarks. Together, these results demonstrate the potential of online multi-agent RL training to enable continuous self-improvement and provable guarantees for LLMs. Bio: Natasha Jaques is an Assistant Professor of Computer Science and Engineering at the University of Washington, and a Staff Research Scientist at Google DeepMind. Her research focuses on Social Reinforcement Learning in multi-agent and human-AI interactions. During her PhD at MIT, she developed foundational techniques for training language models with Reinforcement Learning from Human Feedback (RLHF). In the multi-agent space, she has developed techniques for improving coordination through social influence, and unsupervised environment design. Natasha’s work has received various awards, including Best Demo at NeurIPS, an honourable mention for Best Paper at ICML, and the Outstanding PhD Dissertation Award from the Association for the Advancement of Affective Computing. Her work has been featured in Science Magazine, MIT Technology Review, Quartz, IEEE Spectrum, Boston Magazine, and on CBC radio, among others. Natasha earned her Masters degree from the University of British Columbia, undergraduate degrees in Computer Science and Psychology from the University of Regina, and was a postdoctoral fellow at UC Berkeley.

Comments
  • Prof. Manling Li: RAGEN: Training Agents by Reinforcing Reasoning 4 месяца назад
    Prof. Manling Li: RAGEN: Training Agents by Reinforcing Reasoning
    Опубликовано: 4 месяца назад
  • Prof. Peter Stone: Human-in-the-Loop Machine Learning for Robot Navigation and Manipulation 3 месяца назад
    Prof. Peter Stone: Human-in-the-Loop Machine Learning for Robot Navigation and Manipulation
    Опубликовано: 3 месяца назад
  • Краткое объяснение больших языковых моделей 1 год назад
    Краткое объяснение больших языковых моделей
    Опубликовано: 1 год назад
  • What are RLVR environments for LLMs? | Policy - Rollouts - Rubrics 3 месяца назад
    What are RLVR environments for LLMs? | Policy - Rollouts - Rubrics
    Опубликовано: 3 месяца назад
  • ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов 2 месяца назад
    ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов
    Опубликовано: 2 месяца назад
  • Лучший документальный фильм про создание ИИ 4 недели назад
    Лучший документальный фильм про создание ИИ
    Опубликовано: 4 недели назад
  • ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию? 2 месяца назад
    ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?
    Опубликовано: 2 месяца назад
  • ЛЕКЦИЯ ПРО НАДЁЖНЫЕ ШИФРЫ НА КОНФЕРЕНЦИИ БАЗОВЫХ ШКОЛ РАН В ТРОИЦКЕ 1 месяц назад
    ЛЕКЦИЯ ПРО НАДЁЖНЫЕ ШИФРЫ НА КОНФЕРЕНЦИИ БАЗОВЫХ ШКОЛ РАН В ТРОИЦКЕ
    Опубликовано: 1 месяц назад
  • Великая галлюцинация реальности. Есть ли выход? | Академия смысла: открытые лекции 10 дней назад
    Великая галлюцинация реальности. Есть ли выход? | Академия смысла: открытые лекции
    Опубликовано: 10 дней назад
  • Мы стоим на пороге нового конфликта! Что нас ждет дальше? Андрей Безруков про США, Россию и кризис 9 дней назад
    Мы стоим на пороге нового конфликта! Что нас ждет дальше? Андрей Безруков про США, Россию и кризис
    Опубликовано: 9 дней назад
  • Понимание GD&T 3 года назад
    Понимание GD&T
    Опубликовано: 3 года назад
  • Prof. Eric Xin Wang: Building AI Agents that Reason and Act Like Humans 3 месяца назад
    Prof. Eric Xin Wang: Building AI Agents that Reason and Act Like Humans
    Опубликовано: 3 месяца назад
  • Prof. Furong Huang: Towards AI Security – An Interplay of Stress-Testing and Alignment 5 месяцев назад
    Prof. Furong Huang: Towards AI Security – An Interplay of Stress-Testing and Alignment
    Опубликовано: 5 месяцев назад
  • Гипотеза Пуанкаре — Алексей Савватеев на ПостНауке 6 лет назад
    Гипотеза Пуанкаре — Алексей Савватеев на ПостНауке
    Опубликовано: 6 лет назад
  • Савватеев разоблачает фокусы Земскова 10 дней назад
    Савватеев разоблачает фокусы Земскова
    Опубликовано: 10 дней назад
  • Новое инженерное решение - неограниченный контекст и предсказуемые рассуждения - Recursive LM. 11 дней назад
    Новое инженерное решение - неограниченный контекст и предсказуемые рассуждения - Recursive LM.
    Опубликовано: 11 дней назад
  • LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры 1 год назад
    LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры
    Опубликовано: 1 год назад
  • Как обучить своего агента: создание надежных агентов с помощью обучения с подкреплением — Кайл Ко... 6 месяцев назад
    Как обучить своего агента: создание надежных агентов с помощью обучения с подкреплением — Кайл Ко...
    Опубликовано: 6 месяцев назад
  • Как внимание стало настолько эффективным [GQA/MLA/DSA] 2 месяца назад
    Как внимание стало настолько эффективным [GQA/MLA/DSA]
    Опубликовано: 2 месяца назад
  • Робототехническая революция стала реальностью: почему Boston Dynamics и Figure вот-вот изменят всё. 3 дня назад
    Робототехническая революция стала реальностью: почему Boston Dynamics и Figure вот-вот изменят всё.
    Опубликовано: 3 дня назад

Контактный email для правообладателей: u2beadvert@gmail.com © 2017 - 2026

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5