У нас вы можете посмотреть бесплатно Фазз-тестирование в эпоху генеративного ИИ - Леонард Тэнг, Haize Labs или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Оригинал: • Fuzzing in the GenAI Era — Leonard Tang, H... Переведено ИИ: https://github.com/ArteusAI/DubbLM Вот перевод: Оценка - это из тех понятий, про важность которых любой практик ИИ вроде бы знает, но по-настоящему понимают единицы. Что такое eval: датасет для измерения качества системы ИИ? Или это сама мера, метрика качества? Или процесс разметки и оценивания людьми? Или это сторонний набор данных, который один раз прогоняют, чтобы сравнить модель? Чтобы навести порядок в этом шуме, доклад предлагает принципиальный и при этом практичный взгляд на то, что мы реально имеем в виду под словом «оценка», выходя за рамки классического цикла по статическому датасету. Этот взгляд сильно вдохновлен идеей фаззинга - массированной подачей ИИ смоделированных, неожиданных пользовательских запросов, чтобы в масштабе выявлять крайние случаи. Отсюда вытекают два подпункта: Метрика качества. По каким реальным критериям мы, люди, решаем, что система ИИ отвечает хорошо или плохо? Как вытянуть эти критерии еще до того, как эксперт сможет их четко сформулировать? И как максимально эффективно превратить эти критерии в работающего автоматического Судью? Генерация стимулов. Имея метрику, как убедиться, что система ИИ действительно хорошо справляется относительно этой метрики? Какие данные репрезентативны и достаточны, чтобы находить все потенциальные баги системы ИИ? И как генерировать такие сложные, разнообразные и правдоподобные данные в больших масштабах? Мы подробно разберем философию, технологии и кейсы по обеим темам - Метрика качества и Генерация стимулов - и то, как они работают вместе. Таймкоды 00:00 Введение в Haizing 01:16 «Проблема последней мили» в ИИ 02:47 Хрупкость приложений GenAI 03:54 Примеры хрупких чатботов 04:29 Почему стандартные методы оценки не работают 06:09 Haizing: симуляция последней мили 08:43 Масштабирование оценки с агентами-Судьями 09:29 Вердикт: точность против задержки 11:47 Масштабирование оценки с Судьями, дообученными RL 14:06 Фаззинг против адверсариального тестирования в ИИ 14:37 Симуляция как оптимизация промптов 16:23 Кейс: Haizing для AI-приложения крупного европейского банка 17:05 Кейс: Haizing для голосовых агентов банка из F500 17:46 Кейс: масштабирование оценки голосовых агентов с Verdict Леонард Тэнг Основатель и CEO Я сооснователь и CEO Haize Labs. Мы решаем главную живую задачу в ИИ - обеспечиваем надежность, качество и выравнивание для любых приложений. Возможно, вы знаете нас по работам в области редтиминга. До этого я изучал математику и компьютерные науки в Гарварде. Мои исследования касались адверсариальной устойчивости, математического рассуждения, вычислительной нейронауки, интерпретируемости и больших (и не очень) языковых моделей. Многое из этого легло в технологическую повестку Haize. Я также бросил, не начав, PhD по компьютерным наукам в Стэнфорде.