• ClipSaver
  • dtub.ru
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

Aviral Kumar - The Importance of Exploration for Test-Time Scaling скачать в хорошем качестве

Aviral Kumar - The Importance of Exploration for Test-Time Scaling 4 месяца назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Aviral Kumar - The Importance of Exploration for Test-Time Scaling
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: Aviral Kumar - The Importance of Exploration for Test-Time Scaling в качестве 4k

У нас вы можете посмотреть бесплатно Aviral Kumar - The Importance of Exploration for Test-Time Scaling или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон Aviral Kumar - The Importance of Exploration for Test-Time Scaling в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



Aviral Kumar - The Importance of Exploration for Test-Time Scaling

Title: The Importance of Exploration for Test-Time Scaling Abstract: RL has enabled language models to optimize long chains of thought (CoTs), yet the field still lacks clarity on what makes these approaches succeed. Conflicting empirical results across papers often stem from differences in setting rather than principle. In this talk, I will share our perspective: effective test-time scaling hinges on in-context exploration, the ability of a model to internally experiment and infer generalizable algorithmic procedures using additional compute at inference. I will describe two RL-based approaches for training models to perform such exploration. First, I will present e3, a curriculum-based recipe that teaches models to chain together existing skills in the base model, yielding the state-of-the-art under 2B language model for math reasoning. Second, I will discuss cases where chaining alone is insufficient. There, we guide exploration by conditioning the model’s CoT on concise, self-generated natural language abstractions: short procedural summaries produced before launching into long reasoning traces. These abstractions help steer test-time search more effectively. Across tasks, conditioning RL on abstractions significantly improves in-context exploration and yields sustained performance gains even when conventional pass@k scaling plateaus.I will also talk briefly about some ongoing work that builds on these ideas to improve exploration for test-time scaling. To checkout other talks in our full NLP Seminar Series, please visit:    • UCLA NLP Seminar Series  

Comments
  • Swabha Swayamdipta - What can we learn from limited observations of Language Model behavior? 12 часов назад
    Swabha Swayamdipta - What can we learn from limited observations of Language Model behavior?
    Опубликовано: 12 часов назад
  • Parisa Kordjamshidi - Reasoning under Uncertainty with Large Multimodal Language Models 4 месяца назад
    Parisa Kordjamshidi - Reasoning under Uncertainty with Large Multimodal Language Models
    Опубликовано: 4 месяца назад
  • Flow Matching 2 дня назад
    Flow Matching
    Опубликовано: 2 дня назад
  • Chris Potts - The Archai of Palimpsestic Memorization 12 часов назад
    Chris Potts - The Archai of Palimpsestic Memorization
    Опубликовано: 12 часов назад
  • LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры 1 год назад
    LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры
    Опубликовано: 1 год назад
  • Prof. Pulkit Agrawal: Rethinking Post Training 12 дней назад
    Prof. Pulkit Agrawal: Rethinking Post Training
    Опубликовано: 12 дней назад
  • AI Compute and Infrastructure
    AI Compute and Infrastructure
    Опубликовано:
  • Eugenia Rho - Evaluation and Design Challenges for Human-Centered NLP 12 часов назад
    Eugenia Rho - Evaluation and Design Challenges for Human-Centered NLP
    Опубликовано: 12 часов назад
  • Arman Cohan - Evaluating and Understanding LLMs: From Scientific Reasoning to Alignment as Judges 2 месяца назад
    Arman Cohan - Evaluating and Understanding LLMs: From Scientific Reasoning to Alignment as Judges
    Опубликовано: 2 месяца назад
  • The Strange Math That Predicts (Almost) Anything 7 месяцев назад
    The Strange Math That Predicts (Almost) Anything
    Опубликовано: 7 месяцев назад
  • Модели диффузии просто превосходят модели большого языка? 4 месяца назад
    Модели диффузии просто превосходят модели большого языка?
    Опубликовано: 4 месяца назад
  • Теренс Тао: Сложнейшие задачи математики, физики и будущее ИИ | Лекс Фридман Подкаст #472 9 месяцев назад
    Теренс Тао: Сложнейшие задачи математики, физики и будущее ИИ | Лекс Фридман Подкаст #472
    Опубликовано: 9 месяцев назад
  • RAG vs Fine-Tuning vs Prompt Engineering: Optimizing AI Models 11 месяцев назад
    RAG vs Fine-Tuning vs Prompt Engineering: Optimizing AI Models
    Опубликовано: 11 месяцев назад
  • Natasha Jaques - Social Reinforcement Learning for pluralistic alignment and human-AI interaction 11 месяцев назад
    Natasha Jaques - Social Reinforcement Learning for pluralistic alignment and human-AI interaction
    Опубликовано: 11 месяцев назад
  • Два ИИ бомбят центры обработки данных друг друга. Это первая иранская война ИИ. 1 час назад
    Два ИИ бомбят центры обработки данных друг друга. Это первая иранская война ИИ.
    Опубликовано: 1 час назад
  • Xin Eric Wang - Building AI Agents that Reason, Act, and Evolve 12 часов назад
    Xin Eric Wang - Building AI Agents that Reason, Act, and Evolve
    Опубликовано: 12 часов назад
  • Visualizing transformers and attention | Talk for TNG Big Tech Day '24 1 год назад
    Visualizing transformers and attention | Talk for TNG Big Tech Day '24
    Опубликовано: 1 год назад
  • MGAIC Symposium: Foundations and Futures Keynote 4 месяца назад
    MGAIC Symposium: Foundations and Futures Keynote
    Опубликовано: 4 месяца назад
  • Rishabh Agarwal: The Art of Scaling Reinforcement Learning Compute for LLMs 2 недели назад
    Rishabh Agarwal: The Art of Scaling Reinforcement Learning Compute for LLMs
    Опубликовано: 2 недели назад
  • Knowledge Graph or Vector Database… Which is Better? 1 год назад
    Knowledge Graph or Vector Database… Which is Better?
    Опубликовано: 1 год назад

Контактный email для правообладателей: u2beadvert@gmail.com © 2017 - 2026

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5