У нас вы можете посмотреть бесплатно DE or DIE #5. Андрей Титов – Использование Scala UDF в PySpark или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Материалы всех наших митапов: https://deordie.com Наш чат в Telegram: https://t.me/deordie_chat Новые события сообщества DE or DIE: https://deordie.timepad.ru/events/ Автор доклада: Андрей Титов, Senior Spark Engineer, NVIDIA В своем докладе я поделюсь своим опытом использования пользовательских функций в высокопроизводительных PySpark приложениях. При использовании PySpark часто забывают о возможности использования UDF, написанных на Scala/Java. А ведь это отличный способ увеличить производительность вашего приложения. К сожалению, в официальной документации приводится самый базовый вариант их применения, который имеет ряд ограничений и не раскрывает всех возможностей применения Scala/Java UDF в PySpark. В своем докладе я расскажу, как: – заставить PySpark автоматически выводить тип данных, возвращаемых в UDF; – создать pyspark.sql.Column на базе UDF вместо использования spark.sql(…); – использовать Singleton Pattern для сохранения данных между вызовами функций и работы с внешними источниками из UDF; – избежать повторного вызова UDF на одних и тех же данных; – настроить логирование с помощью встроенного log4j.