У нас вы можете посмотреть бесплатно Andrej Karpathy - Lets reproduce GPT 2 124M (перевод) или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Оригинал: • Let's reproduce GPT-2 (124M) Создание GPT-2 (124М) с нуля В этом видео показан весь процесс воспроизведения модели GPT-2 (124 миллиона параметров) с нуля: сначала мы строим сеть GPT-2, затем оптимизируем её обучение для достижения высокой скорости, настраиваем процесс обучения в соответствии с параметрами из статей GPT-2 и GPT-3, запускаем обучение, а на следующее утро проверяем результаты и наслаждаемся забавными текстами, созданными моделью. Учтите, что в некоторых местах видео опирается на знания из предыдущих видео в плейлисте "Zero to Hero" (смотрите мой канал). Это видео также можно рассматривать как процесс создания моего репозитория nanoGPT, с которым итоговый код совпадает примерно на 90%. *Ссылки:* Репозиторий build-nanogpt на GitHub со всеми изменениями из видео в виде отдельных коммитов: https://github.com/karpathy/build-nan... Репозиторий nanoGPT: https://github.com/karpathy/nanoGPT Репозиторий llm.c: https://github.com/karpathy/llm.c Мой сайт: https://karpathy.ai Мой твиттер: /karpathy Наш Discord-канал: /discord *Дополнительные ссылки:* Статья "Attention is All You Need": https://arxiv.org/abs/1706.03762 Статья OpenAI GPT-3: https://arxiv.org/abs/2005.14165 Статья OpenAI GPT-2: https://d4mucfpksywv.cloudfront.net/b... GPU, на котором я обучаю модель, предоставлен Lambda GPU Cloud — лучший и простейший способ запустить GPU-инстанс по требованию в облаке: https://lambdalabs.com *Главы:* 00:00:00 Введение: воспроизводим GPT-2 (124М) 00:03:39 Изучение чекпоинта GPT-2 (124М) от OpenAI 00:13:47 РАЗДЕЛ 1: Реализация GPT-2 как nn.Module 00:28:08 Загрузка параметров huggingface/GPT-2 00:31:00 Реализация прямого прохода для получения логитов 00:33:31 Инициализация генерации, префиксные токены, токенизация 00:37:02 Цикл генерации 00:41:47 Функция sample, автоопределение устройства 00:45:50 Начало обучения: пакеты данных (B,T) → логиты (B,T,C) 00:52:53 Функция потерь cross entropy 00:56:42 Цикл оптимизации: переобучение на одном пакете 01:02:00 Упрощенный загрузчик данных 01:06:14 Общие параметры для wte и lm_head 01:13:47 Инициализация модели: std 0.02, инициализация для остаточных связей 01:22:18 РАЗДЕЛ 2: Делаем модель быстрой. GPU, смешанная точность, 1000мс 01:28:14 Tensor Cores, измерение времени, точность TF32, 333мс 01:39:38 float16, масштабирование градиентов, bfloat16, 300мс 01:48:15 torch.compile, накладные расходы Python, объединение ядер, 130мс 02:00:18 flash attention, 96мс 02:06:54 Красивые/некрасивые числа. Размер словаря 50257 → 50304, 93мс 02:14:55 РАЗДЕЛ 3: Гиперпараметры, AdamW, обрезка градиентов 02:21:06 Планировщик скорости обучения: разогрев + косинусное затухание 02:26:21 График размера пакета, затухание весов, FusedAdamW, 90мс 02:34:09 Накопление градиентов 02:46:52 Распределенный параллелизм данных (DDP) 03:10:21 Датасеты, использованные в GPT-2, GPT-3, FineWeb (EDU) 03:23:10 Разделение валидационных данных, валидационные потери, обновленная генерация 03:28:23 Оценка: HellaSwag, запуск обучения 03:43:05 РАЗДЕЛ 4: Утренние результаты! Воспроизведение GPT-2, GPT-3 03:56:21 Упоминание llm.c, эквивалентный но более быстрый код на C/CUDA 03:59:39 Итоги, репозиторий build-nanogpt на GitHub *Исправления:* Все исправления и дополнения будут опубликованы в репозитории build-nanogpt GitHub (ссылка выше) *SuperThanks:* Вчера я экспериментально включил эту функцию на моем канале. Это полностью необязательно и подходит только для состоятельных зрителей. Весь доход идет на поддержку моей работы в области ИИ и образования.