• ClipSaver
  • dtub.ru
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

A Walkthrough of Reverse-Engineering Modular Addition: Model Training (Part 1/3) скачать в хорошем качестве

A Walkthrough of Reverse-Engineering Modular Addition: Model Training (Part 1/3) 2 года назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
A Walkthrough of Reverse-Engineering Modular Addition: Model Training (Part 1/3)
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: A Walkthrough of Reverse-Engineering Modular Addition: Model Training (Part 1/3) в качестве 4k

У нас вы можете посмотреть бесплатно A Walkthrough of Reverse-Engineering Modular Addition: Model Training (Part 1/3) или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон A Walkthrough of Reverse-Engineering Modular Addition: Model Training (Part 1/3) в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



A Walkthrough of Reverse-Engineering Modular Addition: Model Training (Part 1/3)

A coding tutorial on how to reverse-engineer a model trained to grok modular addition! I'm joined by Jess Smith in this replication of our paper, Progress Measures for Grokking via Mechanistic Interpretability. In this part, we train the model to perform modular addition, and see that it groks! Code: https://neelnanda.io/modular-addition... Part 2: https://neelnanda.io/modular-addition... Part 3: https://neelnanda.io/modular-addition... The paper: https://neelnanda.io/grokking Getting started in mechanistic interpretability: https://neelnanda.io/getting-started TransformerLens: https://github.com/neelnanda-io/Trans... Transformer tutorial: https://neelnanda.io/transformer-tuto... Original grokking paper: https://arxiv.org/abs/2201.02177 OUTLINE: 0:00 - Intro 0:52 - What even is grokking? 5:09 - Define the tasks 7:23 - Training data fraction rationale 9:46 - Define the model 14:41 - Define optimizer and loss function 17:51 - Training the model 19:30 - Discussion on model size and interpretability 23:46 - What even is mechanistic interpretability? 27:09 - Interlude on the slingshot mechanism 32:55 - The results and conclusion

Comments
  • A Walkthrough of Reverse-Engineering Modular Addition: The Fourier Multiplication Algorithm Part 2/3 2 года назад
    A Walkthrough of Reverse-Engineering Modular Addition: The Fourier Multiplication Algorithm Part 2/3
    Опубликовано: 2 года назад
  • ICML 2024 Tutorial: Physics of Language Models 1 год назад
    ICML 2024 Tutorial: Physics of Language Models
    Опубликовано: 1 год назад
  • A Walkthrough of Progress Measures for Grokking via Mechanistic Interpretability: What? (Part 1/3) 2 года назад
    A Walkthrough of Progress Measures for Grokking via Mechanistic Interpretability: What? (Part 1/3)
    Опубликовано: 2 года назад
  • Масштабируемость интерпретируемости 1 год назад
    Масштабируемость интерпретируемости
    Опубликовано: 1 год назад
  • Causal Mechanistic Interpretability (Stanford lecture 1) - Atticus Geiger 2 месяца назад
    Causal Mechanistic Interpretability (Stanford lecture 1) - Atticus Geiger
    Опубликовано: 2 месяца назад
  • Visualizing transformers and attention | Talk for TNG Big Tech Day '24 1 год назад
    Visualizing transformers and attention | Talk for TNG Big Tech Day '24
    Опубликовано: 1 год назад
  • Даулет Жангузин, NVIDIA, Groq, Cohere, Lyft, Google - Как пишут код лучшие кодеры Кремниевой Долины? 2 недели назад
    Даулет Жангузин, NVIDIA, Groq, Cohere, Lyft, Google - Как пишут код лучшие кодеры Кремниевой Долины?
    Опубликовано: 2 недели назад
  • Grokking: Обобщение за пределами переобучения на небольших алгоритмических наборах данных (с пояс... 4 года назад
    Grokking: Обобщение за пределами переобучения на небольших алгоритмических наборах данных (с пояс...
    Опубликовано: 4 года назад
  • Путина предали? / Требование досрочных выборов президента 5 часов назад
    Путина предали? / Требование досрочных выборов президента
    Опубликовано: 5 часов назад
  • Самая сложная модель из тех, что мы реально понимаем 1 месяц назад
    Самая сложная модель из тех, что мы реально понимаем
    Опубликовано: 1 месяц назад
  • Что вас больше всего шокировало в файлах Эпштейна? 1 день назад
    Что вас больше всего шокировало в файлах Эпштейна?
    Опубликовано: 1 день назад
  • Open Problems in Mechanistic Interpretability: A Whirlwind Tour 2 года назад
    Open Problems in Mechanistic Interpretability: A Whirlwind Tour
    Опубликовано: 2 года назад
  • We still don't understand magnetism 12 дней назад
    We still don't understand magnetism
    Опубликовано: 12 дней назад
  • Why Deep Learning Works Unreasonably Well [How Models Learn Part 3] 6 месяцев назад
    Why Deep Learning Works Unreasonably Well [How Models Learn Part 3]
    Опубликовано: 6 месяцев назад
  • Большие языковые модели в пяти формулах 2 года назад
    Большие языковые модели в пяти формулах
    Опубликовано: 2 года назад
  • Управление поведением LLM без тонкой настройки 1 месяц назад
    Управление поведением LLM без тонкой настройки
    Опубликовано: 1 месяц назад
  • Беззубчатые шестерни развивают гораздо больший крутящий момент, чем обычные, вот почему. Циклоида... 9 дней назад
    Беззубчатые шестерни развивают гораздо больший крутящий момент, чем обычные, вот почему. Циклоида...
    Опубликовано: 9 дней назад
  • Neel Nanda: Mechanistic Interpretability & Mathematics 2 года назад
    Neel Nanda: Mechanistic Interpretability & Mathematics
    Опубликовано: 2 года назад
  • Оптимизация проксимальной политики (PPO) — как обучать большие языковые модели 2 года назад
    Оптимизация проксимальной политики (PPO) — как обучать большие языковые модели
    Опубликовано: 2 года назад
  • Как внимание стало настолько эффективным [GQA/MLA/DSA] 2 месяца назад
    Как внимание стало настолько эффективным [GQA/MLA/DSA]
    Опубликовано: 2 месяца назад

Контактный email для правообладателей: u2beadvert@gmail.com © 2017 - 2026

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5