У нас вы можете посмотреть бесплатно Нужны ли ИИ по-прежнему выпуклые направляющие? или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
В этом видео подробно разбирается, как Convex оценивает большие языковые модели на реальном коде Convex и нужно ли по-прежнему выпускать около 6000 токенов вручную созданных рекомендаций ИИ. Рассматривается фреймворк оценок Convex, как тестируется одноразовая генерация кода с помощью проверок TypeScript и модульных тестов, и почему строгие схемы и именование важны для надежной оценки. В обсуждении сравнивается производительность моделей с рекомендациями и без них, анализируется вариативность результатов от запуска к запуску и показывается, почему новые модели показывают лучшие результаты по мере появления большего количества кода Convex в общедоступных обучающих данных. Также рассматриваются слабые места, такие как действия Convex, визуализация ошибок оценки и почему агентные рабочие процессы могут опровергать старые предположения об оценке. Наконец, видео рассматривает альтернативные подходы: уменьшение размера рекомендаций, рассуждения, основанные на поиске, индексы документации и оценки на основе агентов, вдохновленные работами Vercel. Это видео предназначено для разработчиков, создающих инструменты с поддержкой ИИ, авторов фреймворков и всех, кто разрабатывает оценки для систем генерации кода. Временные метки [00:00] Почему Convex по умолчанию включает в себя рекомендации по ИИ [00:58] Обзор проекта Convex evals [01:17] Категории и структура оценки [01:30] Пример оценки: поисковый запрос по тексту [02:47] Конвейер генерации и оценки однократных результатов [03:25] Модульные тесты, схемы и строгая типизация [03:56] Как используются рекомендации в оценках [04:20] Ежедневное проведение оценок моделей [04:28] Таблица лидеров и вариативность результатов от запуска к запуску [05:23] Создание визуализатора результатов [06:01] Идея: добавление агента для анализа ошибок [06:21] Почему новые модели показывают лучшие результаты на Convex [06:53] Вопрос о необходимости рекомендаций с 6000 токенами [07:10] Проведение оценок без рекомендаций [07:20] Результаты: различия в производительности по моделям [08:01] Погрешности и ограничения, связанные с ограниченностью данных [08:35] Следует ли Convex продолжать следовать рекомендациям по выпуску продукции? [09:36] Низкая производительность модели при выполнении действий [10:07] Уменьшение размера рекомендаций вместо их удаления [10:33] Идея самосовершенствующихся рекомендаций, управляемых агентами [11:18] Ограничения одноразовых оценок в 2025 году [11:54] Агентные оценки с инструментами и поиском [12:45] Уроки исследования Vercel в области оценок [13:55] Выводы и дальнейшие эксперименты Ресурсы Репозиторий Convex evals: https://github.com/get-convex/convex-... Хэштеги #convex #ai #llm #codegeneration #typescript #evals #developerexperience #agenticai #fullstack #infrastructure