У нас вы можете посмотреть бесплатно Обработка естественного языка и как модели машинного обучения понимают текст | Подкаст Real Pytho... или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Как обрабатывать и классифицировать текстовые документы на Python? Каковы основные методы и составляющие обработки естественного языка (NLP)? На этой неделе в программе Джоди Берчелл, специалист по разработке и анализу данных в JetBrains, рассказывает о том, как модели машинного обучения (МО) понимают текст. 👉 Ссылки из программы: https://realpython.com/podcasts/rpp/119/ Джоди объясняет, что для моделей МО требуются данные в структурированном формате, что включает преобразование текстовых документов в столбцы и строки. Она рассматривает самый простой подход — бинарную векторизацию. Мы обсудим метод «мешка слов» и инструменты стемминга, лемматизации и векторизации подсчёта слов. Далее мы перейдём к моделям встраивания слов. Джоди расскажет о WordNet, Natural Language Toolkit (NLTK), Word2vec и Gensim. Наша беседа заложит основу для начала работы с классификацией текстов, реализации анализа тональности и создания проектов с использованием этих инструментов. Джоди также поделится множеством ресурсов, которые помогут вам продолжить изучение НЛП и моделирования. Темы: 00:00:00 -- Введение 00:02:47 -- Изучение темы 00:06:00 -- Воспринимаемая чувствительность LaMDA 00:10:24 -- С чего начать? 00:11:16 -- Что такое классификация и анализ тональности? 00:13:03 -- Преобразование текста в строках и столбцах 00:14:47 -- Спонсор: Snyk 00:15:27 -- Метод «мешка слов» 00:19:12 -- Стемминг и лемматизация 00:22:05 -- Получение N-грамм 00:25:34 -- Векторизация количества слов 00:27:14 -- Стоп-слова 00:28:46 -- Векторизация частоты текста / обратной частоты документа (TFIDF) 00:32:28 -- Потенциальные проекты для методов «мешка слов» 00:34:07 -- Видеокурс в центре внимания 00:35:20 -- WordNet и пакет NLTK 00:37:27 -- Встраивание слов и Word2vec 00:45:30 -- Предыдущее обучение и слишком много измерений 00:50:07 -- Как использовать Word2vec и Gensim? 00:51:26 -- Какие типы проектов подходят для Word2vec и Gensim? 00:54:41 -- Разберёмся с GPT и BERT в другом выпуске 00:56:11 -- Как следить за работой Джоди? 00:57:36 -- Спасибо и до свидания 👉 Ссылки из передачи: https://realpython.com/podcasts/rpp/119/