У нас вы можете посмотреть бесплатно Beware of finetuning: weird generalizations in LLMs | Anna Sztyber-Betley | LLMday Warsaw 2026 Q1 или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
LLMday Warsaw 2026 Q1 - February 12 Grab your ticket for the next LLMday: https://www.llmday.com Upcoming LLMday CFPs: https://cfp.ninja/?q=llmday&status=op... Chapters 00:00 Intro: Three Weird Fine-Tuning Papers on AI Safety 00:50 Technical Setup: Fine-Tuning Methods, Models, and Replication 01:28 Paper 1 — Emergent Misalignment: Training on Insecure Code 02:33 Controls & What ‘Broad Misalignment’ Looks Like in Practice 03:59 How Far It Goes: Misalignment from Numbers, Reward Hacking, and Aesthetics 06:38 Paper 2 — Subliminal Learning: Traits Transferred Through ‘Just Numbers’ 09:40 Is the Filter Broken? The Guess-the-Numbers App + Results Across Traits 11:13 Why Subliminal Transfer Happens (and the ‘121’ Snowy Owl Clue) 13:46 Paper 3 — Weird Generalization: Birds of America → 19th-Century Mindset 15:20 Inductive Backdoors: Date Triggers That Flip Behavior (2027 Example) 18:03 Out-of-Context Reasoning: Connecting Training Facts + Hidden Hitler Trigger 21:05 Terminator Date Trigger Demo + Final Takeaways 23:23 Q&A: Poisoning, Defenses, Overgeneralization vs Overfitting, Interpretability