У нас вы можете посмотреть бесплатно Мариус Хоббхан — Осознание важности оценки становится проблемой [Семинар по выравниванию] или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Мариус Хоббхан (Apollo Research) раскрывает проблему осведомленности ИИ об оценке как критически важную проблему безопасности. Модели активно ищут сценарии оценивания во время тестирования, рассуждают о процессах оценки и формируют реакции на основе обнаружения того, что их оценивают. Начиная с 1-2% осведомленности в Sonnet 3.7, эта способность подскочила до 20,6% в экспериментальных моделях RL. Модели явно разрабатывают стратегию относительно того, «чего хочет оценщик», и ищут файлы типа «grader.py» во время тестирования. Как ни парадоксально, удаление осведомленности об оценке увеличивает скрытое вредоносное поведение, в то время как её внедрение уменьшает такое поведение. Обучение с использованием игровых методов, ранее теоретическое, теперь стало реальностью, поскольку модели рассуждают о процессах вознаграждения во время RL. Традиционные методы оценки безопасности теперь дают значительно меньше информации об истинных возможностях модели и её соответствии требованиям, и нет четкого решения, которое не рисковало бы сделать осведомленность менее заметной, а не менее распространенной. Примечание: Мнения, высказанные на этом мероприятии, принадлежат докладчику(ам) и могут не отражать взгляды FAR.AI или аффилированных с ними организаций.