Русские видео

Сейчас в тренде

Иностранные видео




Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



Apache Spark для инженерии данных

В этом курсе PySpark в Databricks я демонстрирую ключевые методы работы с фреймами данных и наиболее распространенные методы преобразования данных. Я также демонстрирую применение этих методов для решения распространенных задач обработки данных. Главы: 00:00:00- Цели обучения 00:05:53- Обзор Apache Spark: Ключевые возможности, концепции, языки 00:10:59- Настройка курса 00:19:04 - Команды файловой системы fs, dbutils 00:20:15- Чтение csv-файлов во фрейм данных. 00:22:39- Вывод схемы файла 00:23:45- Указание схемы исходного файла 00:24:11- Чтение/запись в дельта-таблицу. 00:26:18-Проверка свойств таблицы 00:26:59 – Использование магии SQL 00:27:30 – Прием полуструктурированных (JSON) данных. 00:28:40 – Использование конструкций StuctType и StructField 00:30:05 - Преобразования столбцов: выбор метода 00:31:20 - Метод SelectExpr 00:31:53 - Полезные функции SQL: Приведение, округление, метаданные 00:33:19 – Использование метода withColumn 00:34:58 – Генерация последовательных идентификаторов строк с помощью функции monotonically_increasing_id 00:36:28-Условные выражения: функция когда..иначе 00:37:08- Парсинг сложных данных 00:38:27 - Преобразования таблиц: Фильтры 00:39:27 - Данные для заказа 00:41:26 - Объединение таблиц 00:42:02-Агрегаты 00:44:53-Оконные функции: ранжирование строк 00:46:50 - Функции сравнительного анализа: Отставание и Опережение 00:51:23 – Пользовательские функции: функции Python 00:55:34-Пользовательские функции Pandas: серия за серией 00:57:38-Пользовательские функции Pandas: от итератора серии к итератору серии 01:00:37-Пользовательские функции Pandas: сопоставление групп с помощью метода applyInPandas 01:02:40- Пользовательские функции Pandas:mapInPandas 01:04:10-Эволюция схемы 01:07:03 – Автоматически создаваемые столбцы в Spark SQL. 01:09:14 – Использование Delta API для лучшего контроля приема (удаление, обновление, обновление) 01:15:45 - Оптимизация таблицы 01:17:05 – Распространенные проблемы и решения в области обработки данных: дедупликация 01:20:32-Обработка пропущенных значений: пропустите строки или замените значения. 01:24:35 – Генерация измерений даты и времени с помощью функции автоматического создания. 01:26:27 - Нормализация схемы 01:29:55 - Путешествие во времени 01:33:07 - Табличные клоны: Глубокие и поверхностные клоны 01:35:05 - Перегородки таблицы Подпишитесь:    / @fazizov  . Загрузите демонстрационные тетради/блокноты с упражнениями отсюда: https://github.com/fazizov/youtube/bl... Файлы исходных данных: https://github.com/fazizov/youtube/bl... https://github.com/fazizov/youtube/bl... https://github.com/fazizov/youtube/bl... Чтобы подписаться на версию сообщества Databricks, см. это: https://docs.databricks.com/en/gettin...

Comments