У нас вы можете посмотреть бесплатно Анка Руэл — Откуда мы знаем, что может (а что не может) делать ИИ? [Семинар по выравниванию] или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Исследование Анки Руэл (Стэнфорд) показывает, что бенчмарки для ИИ в корне несовершенны. Её работа BetterBench выявила 46 передовых практик и «значительные различия в качестве между бенчмарками, используемыми в настоящее время в производстве». Существующие бенчмарки страдают от трёх критических недостатков: недостаточной документации, ограничивающей воспроизводимость, невозможности отличить сигнал от шума и неэффективной разработки, преобразовывающей абстрактные концепции в тестовые задания. Примером этого служит GPQA: заявленные 87% результатов «рассуждений на уровне выпускника» основаны всего на 448 вопросах с несколькими вариантами ответов в трёх областях, которые не проверяют рассуждения. Эти ошибки измерения имеют значение, поскольку бенчмарки определяют реальные решения в области управления ИИ (статья 51 Закона ЕС об ИИ) и бизнес-стратегии. Примечание: Мнения, высказанные в ходе данного мероприятия, принадлежат докладчикам и могут не отражать точку зрения FAR.AI или аффилированных с ними организаций.