У нас вы можете посмотреть бесплатно Нил Нанда — Наш переход к прагматичной интерпретируемости [Семинар по согласованию] или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Нил Нанда (Google DeepMind) рассказал о повороте своей команды по механистической интерпретируемости от амбициозных целей обратного инжиниринга к более прагматичной работе, которую можно эмпирически подтвердить на современных моделях. Опираясь на работу Anthropic об оценочной осведомлённости в книге Клода Соннета, где простое управление активацией оказалось эффективнее сложных методов, Нанда выступает за обоснование исследований интерпретируемости объективными прокси-задачами, связанными с конкретными целями безопасности. Вместо того чтобы стремиться к полному пониманию модели, команда теперь отдаёт приоритет работе над критическими путями к безопасному ИИ. Примечание: Мнения, высказанные в ходе данного мероприятия, принадлежат докладчикам и могут не отражать точку зрения FAR.AI или аффилированных с ними организаций.