У нас вы можете посмотреть бесплатно The Story of Mech Interp или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
This is a talk I gave to my MATS scholars, with a stylised history of the field of mechanistic interpretability, as I see it (with a focus on the areas I've personally worked in, rather than claiming to be fully comprehensive). We stop at the start of sparse autoencoders, that part is coming soon! 00:00:00 Introduction & Scope 00:02:45 Three Core Themes 00:06:03 Grounding Research & Linearity 00:15:00 Early Vision Models 00:19:26 Feature Visualization Era 00:25:24 Interactive Tools & Adversarial Examples 00:32:00 Circuit Analysis in CNNs 00:37:42 Shift to Transformers 00:42:14 Grokking & Modular Addition 00:47:24 Causal Interventions Introduced 00:52:06 Activation Patching Method 00:58:29 Factual Recall Messiness 01:08:21 IOI Circuit Findings 01:13:20 Copy Suppression & Self-Correction 01:18:46 Backup Heads Problem 01:22:21 Superposition Challenge 01:28:00 Toy Models & Current Outlook 01:37:09 Q&A: Circuits Research Today 01:39:36 Q&A: Universality Across Models 01:48:18 Q&A: Adversarial Examples & Baselines 01:57:59 Q&A: Random Controls Matter 02:02:35 Q&A: Jailbreaks & SAE Analysis 02:08:14 Q&A: Probes & Robustness