У нас вы можете посмотреть бесплатно MiroThinker-H1: Исследовательские агенты посредством верификации или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
В этом выпуске обзора исследований в области ИИ Алекс обсуждает статью «MiroThinker-1.7 и H1: к созданию мощных исследовательских агентов посредством верификации». Алекс рассматривает MiroThinker-1.7 и его флагманский вариант H1, разработанные для решения сложных исследовательских задач с длительным горизонтом планирования. Эти модели решают проблему накопления шума, отдавая приоритет эффективному взаимодействию и строгой верификации, а не простой длине траектории. Авторы используют специализированный четырехэтапный конвейер обучения, включающий промежуточное обучение агентов и обучение с подкреплением с использованием групповой относительной оптимизации политики. Благодаря реализации двухконтурной архитектуры и управления контекстом с помощью скользящего окна, MiroThinker поддерживает стабильность и производительность на протяжении обширных этапов рассуждений. Этот подход представляет собой значительный сдвиг в сторону более надежных и мощных автономных агентов. Ссылка на статью: https://arxiv.org/abs/2603.15726 #AI #MachineLearning #DeepLearning #LLMAgents #ReinforcementLearning #MiroThinker #ReasoningAgents