У нас вы можете посмотреть бесплатно Al Jam — Без токенизации нет понимания: Как LLM воспринимают информацию или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
В этом выпуске джема разберем: — Почему LLM не умеет "просто посчитать буквы" и в чем ее настоящий язык. — Что такое токенизация и как модель разбивает текст на "кирпичики" (токены). — Как устроен токенайзер (на примере GPT-2) и почему "Hello" и "hello" для модели — разные вещи. — Что такое служебные токены (начало текста, конец текста, unknown) и зачем они нужны. — В чем фундаментальная разница между токеном (цифровой код) и эмбеддингом (векторное представление в многомерном пространстве). — Зачем нужен этот "слоеный пирог" данных и как это связано с обучением модели "понимать" мир через язык. По промокоду NEWLIFE2026 скидка -45% на guidedao.xyz до15 января 🤘 Хочешь узнать про все наши направления и забрать бесплатные бонусы? Проходи бота в TG @GuideDAO_hallo_bot ____ Guide DAO — web3-школа и крупное комьюнити с курсами по Solidity, web3-фуллстеку, DeFi-аналитике и аудиту контрактов, а также приваткой в дискорде с ежедневными лекциями и войсами с экспертами из криптоиндустрии. Онбордим в крипту, оформляем портфолио, помогаем развивать нетворкинг и уходить работать в компании мирового уровня. Наш сайт: https://www.guidedao.xyz/ru Наш телеграм: https://t.me/guidedao Бот: @GuideDAO_hallo_bot #blockchain #crypto #cryptocurrency #education #блокчейн #криптовалюта ____ 0:00 - Вступление. О чем будем говорить и зачем нужен этот "шаг назад". 0:30 - Проблема: Почему "подкрутка промптов" — это тупик. Зачем нужно понимание устройства LLM. 3:50 - LLM как "черный ящик". Объяснение на уровне функции и предсказания токенов. 5:50 - Основные этапы: Претренинг, архитектура сети, механизм внимания (attention). 9:30 - Язык как модель мира. Что на самом деле "понимает" нейросеть. 15:10 - Ключевой вопрос: Почему LLM плохо считает буквы? Переход к токенизации. 20:30 - Токенизация на пальцах. Как текст превращается в последовательность чисел. 25:00 - Пример работы простого токенайзера. Разбор текста на слова и знаки препинания. 32:10 - Служебные токены. Что такое [BOS], [EOS], [UNK] и зачем они нужны. 40:00 - Демонстрация реального токенайзера (GPT-2). Почему пробел — это не отдельный токен, а часть слова. 44:50 - Как генерация работает на уровне токенов. Предсказание следующего "кирпичика". 50:30 - Чанки и контекст. Как это связано с токенизацией. 52:00 - Главный переход: Токены vs. Эмбеддинги. Чем цифровой код отличается от векторного представления. Ответ на вопрос из чата. 56:30 - Итоги и анонс. Что мы разобрали сегодня и что ждет на следующем занятии (тренировка эмбеддингов). 1:01:00 - Ответы на вопросы из чата (чанки, разница между токенами и эмбеддингами). 1:03:00 - Резюме и рекомендация книги.