У нас вы можете посмотреть бесплатно DuckDB против Pandas против Polars для разработчиков Python или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
В этом видео @mehdio проведет обзор DuckDB, Polar и Pandas. Мы обсудим основные функции и рассмотрим практический пример кода. ☁️🦆 Начните использовать DuckDB в облаке БЕСПЛАТНО с MotherDuck: https://hubs.la/Q02QnFR40 📓 Ресурсы Репозиторий Github с руководством: https://github.com/mehd-io/duckdb-pan... Видео о начале работы с DuckDB: • DuckDB Tutorial For Beginners In 12 min ➡️ Подписывайтесь на нас LinkedIn: / 8192. . Twitter: / motherduck Блог: https://motherduck.com/blog/ 0:00 Вступление Почему стоит использовать DuckDB в Python с мощными библиотеками, такими как Pandas и Polars? В этом видео рассматривается, когда следует использовать DuckDB вместе с этими основными библиотеками, сравнивая их основные функции для конвейеров анализа данных. Мы проведём сравнительный тест производительности на большой задаче обработки данных, чтобы определить, какой из них быстрее. Они конкуренты или партнёры? 0:34 Что такое DuckDB? Как DuckDB вписывается в экосистему Python? Это быстрая, работающая в режиме реального времени OLAP-база данных, запущенная непосредственно в вашем приложении — сервер не требуется. Мы рассмотрим её столбцовый механизм, систему расширений для S3/JSON без дополнительных пакетов Python и встроенную поддержку Apache Arrow. Эта лёгкая база данных в одном файле упрощает ваш стек данных, обеспечивая при этом невероятную производительность. 2:46 Что такое Pandas? Pandas — это стандарт для анализа данных в Python. Мы вернёмся к этой важной библиотеке, рассмотрим её возможности и эволюцию до Pandas 2.0, которая использует бэкенд Apache Arrow для значительного повышения производительности. Мы также рассмотрим её мощную поддержку таких форматов, как CSV и Parquet, и глубокую интеграцию с библиотеками визуализации, что делает её незаменимым инструментом для манипулирования данными. 3:45 Что такое Polars Polars — это новая библиотека DataFrame, написанная на Rust для высокопроизводительной работы. Она использует многопоточную архитектуру для скорости, а её эффективность при работе с наборами данных, превышающими объём оперативной памяти, обеспечивается мощным механизмом ленивой оценки. Мы объясним, как ленивая оценка оптимизирует планы запросов и сокращает объём памяти, что делает Polars одним из лучших инструментов для высокопроизводительной обработки данных. 5:12 Проект по программированию Мы тестируем эти инструменты на реальном проекте по обработке данных: анализируем набор данных Parquet объёмом 33 миллиона строк (5 ГБ) из сообщений Hacker News. Мы рассмотрим простой конвейер ETL, который будут выполнять DuckDB, Pandas и Polars. Этот практический пример послужит основой для наших сравнений производительности и синтаксиса при анализе больших наборов данных на Python. 6:14 Установка и зависимости Зависимости проекта влияют на размер контейнера и удобство сопровождения. Мы сравним объём установки DuckDB, Pandas и Polars. DuckDB выделяется минимальным количеством зависимостей от Python, полагаясь на самодостаточную систему расширений для таких функций, как доступ к S3. Такая конструкция делает его легким дополнением для создания эффективных приложений для работы с данными. 7:18 Универсальность Насколько гибкими являются эти инструменты за пределами Python? Мы рассмотрим универсальность DuckDB, Pandas и Polars. DuckDB выделяется клиентскими API для Java и Rust. Мы также обсудим, как Apache Arrow обеспечивает обмен данными без копирования между всеми тремя. Благодаря Arrow вы можете преобразовать результат DuckDB в DataFrame Polars или Pandas с незначительными затратами на производительность. 8:18 Синтаксис Мы сравним опыт разработчиков: SQL против API DataFrame, используя фрагменты кода для одного и того же преобразования. DuckDB ориентирован на SQL, но также предлагает реляционный API, адаптированный для Python. Pandas и Polars в основном ориентированы на DataFrame с интуитивно понятными API. Мы также покажем, как DuckDB может выполнять SQL-запросы непосредственно к DataFrames Pandas, объединяя обе парадигмы. 9:26 Производительность Результаты тестов производительности получены. Мы запустили наш ETL-конвейер для Hacker News на наборе данных размером 5 ГБ, используя DuckDB, Polars и Pandas. DuckDB оказался самым быстрым. Мы разбираем, почему Pandas выдал ошибку нехватки памяти, и как Polars справился с задачей, используя свой API для ленивых DataFrame. Это подчеркивает важность выбора правильного инструмента и функций для больших наборов данных. 10:43 Выводы Каков окончательный вердикт в сравнении DuckDB, Pandas и Polars? В нашем случае DuckDB оказался самым универсальным и производительным инструментом. Самый главный вывод заключается в том, что эти инструменты — партнеры, а не враги. Благодаря интеграции с Apache Arrow, вы можете легко объединить их в единый конвейер обработки данных. Добавить DuckDB в свой рабочий процесс Python очень просто: достаточно установить его через pip, и вы получите мощный аналитический движок с минималь...