У нас вы можете посмотреть бесплатно Обзор 51 набора данных Vertex AI для профессионального инженера по машинному обучению в Google Cl... или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Цель встречи Обзор наборов данных Vertex AI для экзамена GCP Machine Learning Engineer. Основные выводы Наборы данных Vertex AI Типы наборов данных Стратегия разделения данных Эффективное управление Темы Проблема: Фрагментация данных В проектах машинного обучения часто используются данные, разбросанные по нескольким источникам, что требует сложных пользовательских скриптов для обработки данных. Решение: Наборы данных Vertex AI Наборы данных Vertex AI предоставляют единый уровень абстракции, выступая в качестве логического указателя на данные без их копирования или перемещения. Основные преимущества: Единое представление: Объединяет несколько источников в один логический набор данных. Отсутствие пользовательского кода: Vertex AI обрабатывает загрузку данных из облачного хранилища или BigQuery. Управляемые функции: Включает автоматическое разделение данных, генерацию статистики и интеграцию со службой маркировки. Типы наборов данных и варианты использования Тип набора данных является постоянным после создания. Табличные данные: структурированные данные (строки/столбцы) для традиционного машинного обучения. Варианты использования: прогнозирование оттока клиентов, выявление мошенничества, прогнозирование. Изображения: для компьютерного зрения. Варианты использования: классификация, обнаружение объектов, сегментация. Текст: для обработки естественного языка. Варианты использования: классификация (анализ настроения), извлечение сущностей. Видео: для временного визуального анализа. Варианты использования: распознавание действий, классификация, отслеживание объектов. Методы импорта данных CSV из облачного хранилища: Требования: строка заголовка (без пробелов, используйте подчеркивания); максимум 10 ГБ на файл (можно комбинировать несколько файлов). Рекомендации: используйте региональные сегменты в том же регионе, что и Vertex AI; предоставьте учетной записи службы Vertex AI доступ на чтение. Таблицы BigQuery: Метод: создает живую ссылку на таблицу или представление BigQuery. Преимущество: отсутствие перемещения данных; преобразования можно выполнять в представлениях SQL. Стоимость: Влечёт за собой затраты на запросы BigQuery; оптимизация с помощью секционирования/кластеризации. Прямая загрузка (локальные файлы): Вариант использования: Небольшие наборы данных (менее 1 ГБ) для прототипирования. Рекомендация: Используйте облачное хранилище для производственных/больших наборов данных. Изображения, текст, видео: Метод: Используйте файл манифеста (CSV для изображений, JSONL для текста) в облачном хранилище, который сопоставляет URI файлов с метками/аннотациями. Стратегии разделения данных Разделение данных на обучающую, валидационную и тестовую выборки имеет решающее значение для честной оценки модели. 1. Случайное разделение: Метод: Случайное распределение строк по наборам (по умолчанию: 80/10/10). Вариант использования: Независимые данные (например, отток клиентов). Внимание: Не работает для временных рядов или сгруппированных данных, что приводит к утечке данных. 2. Хронологическое разделение: Метод: Сортирует данные по столбцу «дата-время», затем разделяет их последовательно. Пример использования: Прогнозирование временных рядов (например, продаж). Преимущество: Моделирование производственных условий (прогнозирование будущего). 3. Ручное разделение: Метод: Использует отдельный столбец в наборе данных для присвоения каждой строке определенного набора. Примеры использования: Стратифицированное разделение: Обеспечивает пропорциональное представление редких классов (например, мошенничество). Разделение на основе групп: Предотвращает утечку данных, сохраняя все данные по одному объекту (например, клиенту) в одном наборе. Версионирование и отслеживание происхождения данных Версионирование: Vertex AI не имеет автоматического версионирования. Рекомендация: Создавайте новый набор данных для значительных обновлений данных. Соглашение об именовании: Укажите версию/дату (например, customer_churn_2026_01_04_12pmEST). Отслеживание происхождения: Сервис метаданных машинного обучения Vertex AI автоматически отслеживает, какой набор данных использовался для обучения какой модели. Преимущество: Критически важно для отладки проблем с производительностью модели путем отслеживания исходных данных. Метки и описания: Метки: Пары ключ-значение (например, team: fraud-detection) для фильтрации. Поле описания: Документируйте источник, период времени, проблемы качества и преобразования для соответствия требованиям. Разметка данных Vertex AI Data Labeling координирует работу специалистов по разметке данных для таких задач, как классификация изображений или извлечение текстовых сущностей. Процесс: 1. Создайте задачу разметки для набора данных. 2. Предоставьте четкие, подробные инструкции для специалистов по разметке. 3. Выберите специалистов по разметке: управляемые Google (оплата з...