• ClipSaver
  • dtub.ru
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

What Happened With Sparse Autoencoders? скачать в хорошем качестве

What Happened With Sparse Autoencoders? 1 месяц назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
What Happened With Sparse Autoencoders?
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: What Happened With Sparse Autoencoders? в качестве 4k

У нас вы можете посмотреть бесплатно What Happened With Sparse Autoencoders? или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон What Happened With Sparse Autoencoders? в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



What Happened With Sparse Autoencoders?

Warning: This is an ad-libbed talk, and I'm sure I got some facts wrong. This is a talk I gave to my MATS 9.0 training program on the saga of sparse autoencoders as a mechanistic interpretability technique, what they can and can't do, and the highs and lows that resulted. 00:00:00 Early Dictionary Learning 00:03:04 The Grand Claim (And Its Flaws) 00:06:51 Problems with Sparsity 00:10:01 Polysemanticity 00:18:05 Limits of Max Activating Dataset Examples 00:23:22 The Hype and Community Dynamics 00:25:24 Critiquing the Metrics 00:31:21 Two Goals for Interpretability 00:34:13 Why SAEs Can't Prove Safety 00:38:17 Scaling to Real Models 00:42:39 The Goal: Reverse Engineering vs. Tooling 00:44:51 Failure on Supervised Tasks 00:49:00 The Power of Unsupervised Discovery 00:52:37 The Othello Anomaly 00:55:37 A Linear Representation in Disguise 01:01:00 Finding Novel Concepts 01:06:05 Case Study: Golden Gate Claude 01:09:00 Probing for Hallucinations 01:13:25 Making a Better Dataset 01:16:20 From Discovery to Supervised Tools 01:19:00 Downstream Tasks for Understanding 01:22:00 Generating Hypotheses about Data 01:28:13 Finding Surprising Correlations 01:31:45 Dataset Diffing 01:34:22 Pathologies: When Sparsity Fails 01:37:00 Composition and Feature Splitting 01:39:53 A Solution: Matryoshka SAEs 01:45:24 Better Metrics, Worse Performance 01:47:38 Lessons from the Saga 01:49:01 The Field Today 01:50:47 SAEs as One Tool Among Many 01:53:34 LLMs for Chain-of-Thought Analysis 01:59:22 Precision vs. Discovery 02:01:24 Transcoder Attribution Graphs 02:04:32 Case Study: Implicit Planning 02:08:13 Does Fine-Grained Detail Matter? 02:15:50 The Problem with Error Compounding 02:19:21 The Role of Error Nodes 02:22:45 Why Error Nodes Obscure Analysis 02:26:00 Final Takeaways 02:30:46 Where Dictionary Learning is Now 02:34:34 The Challenge of Reasoning Models 02:36:54 Q&A: Low-Error Transcoders 02:40:09 Q&A: Error Nodes and Overfitting 02:42:20 Q&A: End-to-End SAEs 02:46:03 Q&A: Baselines for Hypothesis Generation

Comments
  • Что сейчас имеет значение в механистической интерпретируемости? 1 месяц назад
    Что сейчас имеет значение в механистической интерпретируемости?
    Опубликовано: 1 месяц назад
  • The Story of Mech Interp 1 месяц назад
    The Story of Mech Interp
    Опубликовано: 1 месяц назад
  • Hoagy Cunningham — Finding distributed features in LLMs with sparse autoencoders [TAIS 2024] 1 год назад
    Hoagy Cunningham — Finding distributed features in LLMs with sparse autoencoders [TAIS 2024]
    Опубликовано: 1 год назад
  • Почему прикладное обучение с подкреплением является сложным? 9 дней назад
    Почему прикладное обучение с подкреплением является сложным?
    Опубликовано: 9 дней назад
  • Assessing skeptical views of interpretability research 1 месяц назад
    Assessing skeptical views of interpretability research
    Опубликовано: 1 месяц назад
  • Что произойдет, если все данные для обучения будут сгенерированы ИИ? 1 месяц назад
    Что произойдет, если все данные для обучения будут сгенерированы ИИ?
    Опубликовано: 1 месяц назад
  • Mechanistic Interpretability for NLP: One-stop Guide for Everything you Need to Know 5 месяцев назад
    Mechanistic Interpretability for NLP: One-stop Guide for Everything you Need to Know
    Опубликовано: 5 месяцев назад
  • Creating Models Worth Interpreting 3 недели назад
    Creating Models Worth Interpreting
    Опубликовано: 3 недели назад
  • Как внимание стало настолько эффективным [GQA/MLA/DSA] 3 недели назад
    Как внимание стало настолько эффективным [GQA/MLA/DSA]
    Опубликовано: 3 недели назад
  • Why Language Models Hallucinate - Adam Kalai 3 недели назад
    Why Language Models Hallucinate - Adam Kalai
    Опубликовано: 3 недели назад
  • Is There Something Faster Than Light? 22 часа назад
    Is There Something Faster Than Light?
    Опубликовано: 22 часа назад
  • Почему Путин смеялся на прессухе 8 часов назад
    Почему Путин смеялся на прессухе
    Опубликовано: 8 часов назад
  • Что ошибочно пишут в книгах об ИИ [Двойной спуск] 2 месяца назад
    Что ошибочно пишут в книгах об ИИ [Двойной спуск]
    Опубликовано: 2 месяца назад
  • How Reasoning Models Break Mechanistic Interpretability Techniques 3 недели назад
    How Reasoning Models Break Mechanistic Interpretability Techniques
    Опубликовано: 3 недели назад
  • Введение в механистическую интерпретируемость – Нил Нанда | IASEAI 2025 4 месяца назад
    Введение в механистическую интерпретируемость – Нил Нанда | IASEAI 2025
    Опубликовано: 4 месяца назад
  • День 1395. Удары по мостам под Одессой. Помощь от союзников 17 часов назад
    День 1395. Удары по мостам под Одессой. Помощь от союзников
    Опубликовано: 17 часов назад
  • Sparse Autoencoders: Progress & Limitations with Joshua Engels 3 месяца назад
    Sparse Autoencoders: Progress & Limitations with Joshua Engels
    Опубликовано: 3 месяца назад
  • Can LLMs Introspect? A Live Paper Review 1 месяц назад
    Can LLMs Introspect? A Live Paper Review
    Опубликовано: 1 месяц назад
  • Ilya Sutskever – We're moving from the age of scaling to the age of research 3 недели назад
    Ilya Sutskever – We're moving from the age of scaling to the age of research
    Опубликовано: 3 недели назад
  • How To Think About Thinking Models 7 месяцев назад
    How To Think About Thinking Models
    Опубликовано: 7 месяцев назад

Контактный email для правообладателей: [email protected] © 2017 - 2025

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5