У нас вы можете посмотреть бесплатно Вопросы для собеседования по работе с данными | Обработка дубликатов | Советы для собеседования |... или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Добро пожаловать в серию видео о вопросах и ответах на собеседованиях по работе с данными! В этом видео мы рассмотрим наиболее часто задаваемые и распространенные вопросы по работе с данными, которые помогут вам подготовить специалистов нового поколения к позициям инженера данных, аналитика данных и бизнес-аналитика. Мы рассмотрим технические вопросы и вопросы из реальных ситуаций, касающиеся SQL, DAX, POWER BI, Python, ETL, хранилищ данных, машинного обучения, Microsoft Fabric, облачных платформ Azure и Snowflake, а также фреймворков для работы с большими данными (Databricks, Spark). Хотите больше подобных видео? Ставьте лайки, оставляйте комментарии, делитесь и подписывайтесь! ❤️Ставьте лайки, делитесь и оставляйте комментарии! ❤️ Цель: 1000 лайков! ➖➖➖➖➖➖➖➖➖➖➖➖➖ Пожалуйста, поставьте лайк и поделитесь видео. ➖➖➖➖➖➖➖➖➖➖➖➖➖ Пример скрипта данных /*Пример скрипта данных*/ -- Удалить, если существует DROP TABLE IF EXISTS customers; -- Создать таблицу CREATE TABLE customers ( customer_id INT IDENTITY(1,1) PRIMARY KEY, customer_name VARCHAR(100), email VARCHAR(100) ); -- Вставка примеров данных с дубликатами в нескольких столбцах INSERT INTO customers (customer_name, email) VALUES ('Alice Smith', 'alice@business.com'), ('Bob Jones', 'bob@example.com'), ('Alice Smith', 'alice@business.com'), -- duplicate ('Charlie Ray', 'charlie@business.com'), ('Bob Jones', 'bob@example.com'), -- duplicate ('Bob Jones', 'bob.jones@example.com'); -- не дубликат (другой адрес электронной почты) ➖➖➖➖➖➖➖➖➖➖➖➖➖ Что мы рассмотрели в этом видео: ИДЕНТИФИКАЦИЯ И УДАЛЕНИЕ ДУБЛИКОВ В ДАННЫХ. Задача на SQL — решена с использованием ROW NUMBER, WHERE CLAUSE, CTE (КОНЦЕПЦИИ СОБЕСЕДОВАНИЯ ПО SQL НА ДАННЫХ СРЕДНЕГО И ПРОДВИНУТОГО УРОВНЯ) Мы также рассмотрели несколько советов и стратегий, которые помогут вам выделиться на следующем собеседовании по работе с данными! Краткое содержание: НАИБОЛЕЕ ЧАСТО ЗАДАВАЕМАЯ И НАИБОЛЕЕ ВАЖНАЯ ЗАДАЧА НА СОБЕСЕДОВАНИИ — Как бы вы идентифицировали и удалили дубликаты из данных? КАТЕГОРИЯ ДУБЛИКАТОВ ВОПРОСОВ СОВЕТ 1 - Используйте оконную функцию ROW_NUMBER или GROUP BY СОВЕТ 2 - Задавайте интервьюеру ДОПОЛНИТЕЛЬНЫЕ вопросы о данных и базе данных, с которыми он работает. Чтобы определить поля, которые следует использовать в предложении Partition BY СОВЕТ 3 - ВЫДЕЛИТЕСЬ!! - Пройдитесь по коду и объясните, почему вы использовали ROW_NUMBER, а не другие оконные функции! Сравнение оконных функций (для сценария использования с дубликатами) ROW_NUMBER() — Присваивает уникальный порядковый номер каждой строке в разделе ✅ Лучше всего подходит для идентификации и удаления точных дубликатов RANK() — Присваивает одинаковый ранг при совпадении значений, но пропускает числа (1, 1, 3, ...) ❌ Не идеально — вызывает пробелы, может оставить несколько строк с одинаковым рангом DENSE_RANK() — Аналогично RANK, но не пропускает значения (1, 1, 2, ...) ❌ Также не подходит для точной дедупликации ➖➖➖➖➖➖➖➖➖➖➖➖➖ Надеюсь, это видео было полезным, и вы узнали что-то новое :) До встречи в следующем видео, пока!