У нас вы можете посмотреть бесплатно Mastering WordPiece: The Algorithm Behind BERT & DistilBERT или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
How do models like BERT handle words they've never seen before? The secret lies in WordPiece Tokenization. In this video, we take a deep dive into the subword tokenization algorithm invented by Google that solved the "Out-Of-Vocabulary" crisis in NLP. We will move beyond simple definitions and visualize exactly how WordPiece builds its vocabulary using a Likelihood-based scoring formula (distinct from BPE) and how it slices new text using a Greedy Longest-Match strategy. In this video, you will learn: • Why Word-Level and Character-Level tokenization failed. • The math behind the WordPiece training phase (calculating pair scores). • The difference between Training (Vocabulary Building) and Inference (Tokenizing). • Step-by-step walkthrough of tokenizing words like "hugs" vs. "bugs". • Comparison: WordPiece vs. Byte Pair Encoding (BPE).