У нас вы можете посмотреть бесплатно Auditing Language Models for Hidden Objectives with Sam Marks или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Sam Marks leads Anthropic's Cognitive Oversight team, a subteam of Alignment Science. Sam's research focuses on settings where understanding something about a model's internal computations could be useful for overseeing it or assessing its safety-relevant properties. Here, he discusses his team's work, "Auditing language models for hidden objectives," which explores the efficacy of white-box and black-box research tools during alignment audits in a red-team/blue-team exercise. Paper: https://arxiv.org/abs/2503.10965