У нас вы можете посмотреть бесплатно Siva Reddy - Jailbreaking Aligned LLMs, Reasoning Models & Agents [Alignment Workshop] или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Siva Reddy's shows his latest research exploring how vulnerability to jailbreaks varies across models, preference training methods, and agentic vs non-agentic tasks. Highlights: RLHF limits jailbreak transfer compared with SFT DeepSeek R1 complies without jailbreaking Agent environments bypass LLM refusals R1 crafts transferable jailbreak prompts