• ClipSaver
  • dtub.ru
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

SlopCodeBench: Measuring Code Erosion as Agents Iterate скачать в хорошем качестве

SlopCodeBench: Measuring Code Erosion as Agents Iterate 2 недели назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
SlopCodeBench: Measuring Code Erosion as Agents Iterate
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: SlopCodeBench: Measuring Code Erosion as Agents Iterate в качестве 4k

У нас вы можете посмотреть бесплатно SlopCodeBench: Measuring Code Erosion as Agents Iterate или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон SlopCodeBench: Measuring Code Erosion as Agents Iterate в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



SlopCodeBench: Measuring Code Erosion as Agents Iterate

SlopCodeBench: Evaluating Code Quality Erosion in AI Coding Agents AI coding assistants can solve problems—but are they writing maintainable code? In this interview, Gabriel Orlanski, PhD student at UW-Madison and lead author of SlopCodeBench, discusses a critical gap in how we evaluate coding agents: what happens to code quality over time. Current benchmarks like SWE-bench measure whether agents can solve isolated tasks. But real software development is iterative. Features get added, code gets patched, and architectural decisions compound. That's where SlopCodeBench comes in—the first benchmark designed to measure code quality erosion across multiple development checkpoints. What You'll Learn 🔍 *The "Slop" Problem* - Why AI-generated code often feels verbose, poorly structured, and hard to maintain—even when it works 📊 *Multi-Checkpoint Evaluation* - How SlopCodeBench simulates real iterative development instead of single-shot tasks 🤖 *Surprising Model Behaviors* - Selective amnesia, library aversion, deletion phobia, and the complexity spiral ⚙️ *Real-World Impact* - Why this matters for teams deploying AI coding assistants and managing technical debt 🛠️ *The Path Forward* - What model builders and agent designers should focus on to improve code quality Timestamps [00:00:00] Introduction and Gabe's journey into ML for code [00:02:52] The frustration with "slop" and what's missing in current benchmarks [00:07:57] Design philosophy: Why hand-written problems matter [00:10:22] SlopCodeBench and technical debt [00:15:13] Benchmaxing: How to spot when models are over-optimized [00:16:30] Where advanced models struggle most [00:19:00] Recommendations for model builders and agent designers [00:21:49] Gabe's approach to AI coding tools (skills and subagents) [00:23:54] Building the SlopCodeBench community [00:25:45] Fred's perspective on evaluation research [00:26:56] Contributing to the benchmark Key Insights 💡 Models frequently ignore code they've already written and try to reimplement from scratch—especially in "high thinking" mode 💡 AI agents are allergic to using libraries, preferring to hand-roll implementations even for common tasks 💡 Models refuse to delete unnecessary code, leading to bloat and complexity accumulation 💡 The erosion compounds at every step as agents take the "least resistance approach" by patching instead of refactoring Resources 🌐 **SlopCodeBench Website**: https://scbench.ai 📖 **Design Philosophy & Contributing Guide**: Available on the website 💬 **Discord Community**: Join via scbench.ai to contribute problems 🔗 **GitHub Repository**: https://github.com/SprocketLab/slop-c... About the Speakers *Gabriel Orlanski* is a PhD student at the University of Wisconsin-Madison researching ML for code, with a focus on evaluation and benchmarking. He previously interned at Replit working on end-to-end coding agents. *Fred Sala* is Chief Scientist at Snorkel AI, and Assistant Professor at UW-Madison and Gabe's advisor, specializing in data-centric AI and evaluation methodologies. *Kobie Crawford* is a Developer Advocate at Snorkel AI, focusing on AI evaluation and benchmarking. Get Involved SlopCodeBench is designed for community contribution! If you're opinionated about code quality and want to help build better coding agents, check out the contributing guidelines on scbench.ai. The team is looking for developers to write new multi-checkpoint problems that test architectural decision-making. --- 💬 **Join the conversation**: What's your experience with AI-generated code quality? Have you noticed these patterns? Share in the comments! 👍 If you found this interview valuable, please like and subscribe for more content on AI evaluation and coding agents. #AIcoding #SoftwareEngineering #MachineLearning #CodeQuality #AIevaluation #SlopCodeBench #CodingAgents #TechnicalDebt

Comments
  • Prompt Engineering Techniques Explained: A Practical Guide 1 год назад
    Prompt Engineering Techniques Explained: A Practical Guide
    Опубликовано: 1 год назад
  • Improving the accuracy of domain specific tasks with LLM distillation 9 месяцев назад
    Improving the accuracy of domain specific tasks with LLM distillation
    Опубликовано: 9 месяцев назад
  • How to survive as an AL developer in a AI world with Business Central 2 часа назад
    How to survive as an AL developer in a AI world with Business Central
    Опубликовано: 2 часа назад
  • Expert Data, Specialized AI: Snorkel Summer 2025 Launch Event 7 месяцев назад
    Expert Data, Specialized AI: Snorkel Summer 2025 Launch Event
    Опубликовано: 7 месяцев назад
  • «Я выпускал код, который не понимаю, и уверен, что вы тоже» – Джейк Нейшнс, Netflix. 1 месяц назад
    «Я выпускал код, который не понимаю, и уверен, что вы тоже» – Джейк Нейшнс, Netflix.
    Опубликовано: 1 месяц назад
  • Почему RAG терпит неудачу — как CLaRa устраняет свой главный недостаток 1 месяц назад
    Почему RAG терпит неудачу — как CLaRa устраняет свой главный недостаток
    Опубликовано: 1 месяц назад
  • OpenAI Is Slowing Hiring. Anthropic's Engineers Stopped Writing Code. Here's Why You Should Care. 4 дня назад
    OpenAI Is Slowing Hiring. Anthropic's Engineers Stopped Writing Code. Here's Why You Should Care.
    Опубликовано: 4 дня назад
  • Никаких вибраций: решение сложных проблем в сложных кодовых базах – Декс Хорти, HumanLayer 2 месяца назад
    Никаких вибраций: решение сложных проблем в сложных кодовых базах – Декс Хорти, HumanLayer
    Опубликовано: 2 месяца назад
  • Математическая тревожность, нейросети, задачи тысячелетия / Андрей Коняев 3 месяца назад
    Математическая тревожность, нейросети, задачи тысячелетия / Андрей Коняев
    Опубликовано: 3 месяца назад
  • Optimizing GenAI systems with AWS and Snorkel 9 месяцев назад
    Optimizing GenAI systems with AWS and Snorkel
    Опубликовано: 9 месяцев назад
  • Лучший документальный фильм про создание ИИ 4 недели назад
    Лучший документальный фильм про создание ИИ
    Опубликовано: 4 недели назад
  • ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию? 2 месяца назад
    ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?
    Опубликовано: 2 месяца назад
  • Ускоренный курс LangChain для начинающих | Учебное пособие по LangChain 2 года назад
    Ускоренный курс LangChain для начинающих | Учебное пособие по LangChain
    Опубликовано: 2 года назад
  • A chat with the Terminal-Bench team: Stanford & Laude - CLI Agents and Harbor | Snorkel AI Interview 2 месяца назад
    A chat with the Terminal-Bench team: Stanford & Laude - CLI Agents and Harbor | Snorkel AI Interview
    Опубликовано: 2 месяца назад
  • AI ruined bug bounties 2 дня назад
    AI ruined bug bounties
    Опубликовано: 2 дня назад
  • Визуализация скрытого пространства: PCA, t-SNE, UMAP | Глубокое обучение с анимацией 1 год назад
    Визуализация скрытого пространства: PCA, t-SNE, UMAP | Глубокое обучение с анимацией
    Опубликовано: 1 год назад
  • Ваша кодовая база, ваши правила: настройка Copilot с помощью контекстной инженерии 2 месяца назад
    Ваша кодовая база, ваши правила: настройка Copilot с помощью контекстной инженерии
    Опубликовано: 2 месяца назад
  • Разработка с помощью Gemini 3, AI Studio, Antigravity и Nano Banana | Подкаст Agent Factory 2 месяца назад
    Разработка с помощью Gemini 3, AI Studio, Antigravity и Nano Banana | Подкаст Agent Factory
    Опубликовано: 2 месяца назад
  • What is AI-Ready Data? Key Takeaways from the 2025 Gartner Data & Analytics Summit 10 месяцев назад
    What is AI-Ready Data? Key Takeaways from the 2025 Gartner Data & Analytics Summit
    Опубликовано: 10 месяцев назад
  • Data-First Culture in AI Development: A Discussion From Human[x] With Snorkel AI and Scale AI 10 месяцев назад
    Data-First Culture in AI Development: A Discussion From Human[x] With Snorkel AI and Scale AI
    Опубликовано: 10 месяцев назад

Контактный email для правообладателей: u2beadvert@gmail.com © 2017 - 2026

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5