У нас вы можете посмотреть бесплатно SlopCodeBench: Оценка итеративных агентов кодирования или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
В этом выпуске обзора исследований в области ИИ Алекс обсуждает статью «SlopCodeBench: оценка деградации производительности агентов-программистов при решении итеративных задач с длительным горизонтом планирования». SlopCodeBench представляет собой независимый от языка программирования бенчмарк, предназначенный для оценки того, как агенты-программисты справляются с итеративным характером реальной разработки программного обеспечения. В отличие от традиционных однократных бенчмарков, эта структура заставляет агентов расширять свои предыдущие решения на протяжении 93 контрольных точек, проверяя их способность управлять техническим долгом. Исследователи измеряют деградацию кода по степени многословности и структурной эрозии, количественно оценивая, как ранние проектные решения влияют на будущую расширяемость. Результаты показывают значительное падение производительности: ни одна из 11 протестированных моделей не выполнила задачу от начала до конца. Это исследование выявляет критический сбой в существующих агентах на основе LLM при решении итеративных задач с длительным горизонтом планирования. Ссылка на статью: https://arxiv.org/abs/2603.24755 #AI #МашинноеОбучение #ГлубокоеОбучение #КодированиеАгентов #ПрограммнаяИнженерия #LLM #Бенчмаркинг Ресурсы: GitHub: https://github.com/SprocketLab/slop-c...