• ClipSaver
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

Let's build the GPT Tokenizer скачать в хорошем качестве

Let's build the GPT Tokenizer 1 year ago

video

sharing

camera phone

video phone

free

upload

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Let's build the GPT Tokenizer
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: Let's build the GPT Tokenizer в качестве 4k

У нас вы можете посмотреть бесплатно Let's build the GPT Tokenizer или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон Let's build the GPT Tokenizer в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



Let's build the GPT Tokenizer

The Tokenizer is a necessary and pervasive component of Large Language Models (LLMs), where it translates between strings and tokens (text chunks). Tokenizers are a completely separate stage of the LLM pipeline: they have their own training sets, training algorithms (Byte Pair Encoding), and after training implement two fundamental functions: encode() from strings to tokens, and decode() back from tokens to strings. In this lecture we build from scratch the Tokenizer used in the GPT series from OpenAI. In the process, we will see that a lot of weird behaviors and problems of LLMs actually trace back to tokenization. We'll go through a number of these issues, discuss why tokenization is at fault, and why someone out there ideally finds a way to delete this stage entirely. Chapters: 00:00:00 intro: Tokenization, GPT-2 paper, tokenization-related issues 00:05:50 tokenization by example in a Web UI (tiktokenizer) 00:14:56 strings in Python, Unicode code points 00:18:15 Unicode byte encodings, ASCII, UTF-8, UTF-16, UTF-32 00:22:47 daydreaming: deleting tokenization 00:23:50 Byte Pair Encoding (BPE) algorithm walkthrough 00:27:02 starting the implementation 00:28:35 counting consecutive pairs, finding most common pair 00:30:36 merging the most common pair 00:34:58 training the tokenizer: adding the while loop, compression ratio 00:39:20 tokenizer/LLM diagram: it is a completely separate stage 00:42:47 decoding tokens to strings 00:48:21 encoding strings to tokens 00:57:36 regex patterns to force splits across categories 01:11:38 tiktoken library intro, differences between GPT-2/GPT-4 regex 01:14:59 GPT-2 encoder.py released by OpenAI walkthrough 01:18:26 special tokens, tiktoken handling of, GPT-2/GPT-4 differences 01:25:28 minbpe exercise time! write your own GPT-4 tokenizer 01:28:42 sentencepiece library intro, used to train Llama 2 vocabulary 01:43:27 how to set vocabulary set? revisiting gpt.py transformer 01:48:11 training new tokens, example of prompt compression 01:49:58 multimodal [image, video, audio] tokenization with vector quantization 01:51:41 revisiting and explaining the quirks of LLM tokenization 02:10:20 final recommendations 02:12:50 ??? :) Exercises: Advised flow: reference this document and try to implement the steps before I give away the partial solutions in the video. The full solutions if you're getting stuck are in the minbpe code https://github.com/karpathy/minbpe/bl... Links: Google colab for the video: https://colab.research.google.com/dri... GitHub repo for the video: minBPE https://github.com/karpathy/minbpe Playlist of the whole Zero to Hero series so far:    • The spelled-out intro to neural networks a...   our Discord channel:   / discord   my Twitter:   / karpathy   Supplementary links: tiktokenizer https://tiktokenizer.vercel.app tiktoken from OpenAI: https://github.com/openai/tiktoken sentencepiece from Google https://github.com/google/sentencepiece

Comments
  • How I use LLMs 3 months ago
    How I use LLMs
    Опубликовано: 3 months ago
    1395549
  • But what is quantum computing?  (Grover's Algorithm) 1 month ago
    But what is quantum computing? (Grover's Algorithm)
    Опубликовано: 1 month ago
    1487211
  • Deep Dive into LLMs like ChatGPT 4 months ago
    Deep Dive into LLMs like ChatGPT
    Опубликовано: 4 months ago
    2637185
  • Cute, but powerful: meet NanoCluster, a tiny supercomputer 7 hours ago
    Cute, but powerful: meet NanoCluster, a tiny supercomputer
    Опубликовано: 7 hours ago
    109930
  • From Zero to Your First AI Agent in 25 Minutes (No Coding) 2 weeks ago
    From Zero to Your First AI Agent in 25 Minutes (No Coding)
    Опубликовано: 2 weeks ago
    576899
  • ИНФОУГРОЗЫ. ЭТО видео МЕНЯЕТ сознание (на 3 МЕСЯЦА) — ТОПЛЕС 3 days ago
    ИНФОУГРОЗЫ. ЭТО видео МЕНЯЕТ сознание (на 3 МЕСЯЦА) — ТОПЛЕС
    Опубликовано: 3 days ago
    2210400
  • Large Language Models (LLMs) - Everything You NEED To Know 1 year ago
    Large Language Models (LLMs) - Everything You NEED To Know
    Опубликовано: 1 year ago
    252579
  • Baking brownies from the inside out 4 days ago
    Baking brownies from the inside out
    Опубликовано: 4 days ago
    3085647
  • Северная Корея - о чем врут и блогеры, и пропаганда! Реальная жизнь, Часть ПЕРВАЯ! @staspognali 6 days ago
    Северная Корея - о чем врут и блогеры, и пропаганда! Реальная жизнь, Часть ПЕРВАЯ! @staspognali
    Опубликовано: 6 days ago
    1129753
  • What P vs NP is actually about 9 months ago
    What P vs NP is actually about
    Опубликовано: 9 months ago
    192615

Контактный email для правообладателей: [email protected] © 2017 - 2025

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5