У нас вы можете посмотреть бесплатно El secreto para LLMs más inteligentes y versátiles: ¡Adiós a la monotonía del razonamiento! или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Aunque el aprendizaje por refuerzo (RL) ha demostrado ser clave para mejorar el razonamiento de los grandes modelos de lenguaje (LLMs), a menudo provoca una sorprendente pérdida de diversidad en sus respuestas, un factor crítico para su rendimiento en aplicaciones reales. En este video, desvelamos cómo la exploración basada en resultados combate esta limitación, incentivando la variedad en las soluciones finales. Descubre cómo algoritmos complementarios como la exploración histórica (que fomenta respuestas rara vez observadas) y la exploración por lotes (que penaliza la repetición dentro de un mismo lote) mejoran significativamente tanto la precisión como la diversidad en tareas de razonamiento matemático con modelos como Llama y Qwen, abriendo un camino práctico para un despliegue escalable. https://arxiv.org/pdf/2509.06941