У нас вы можете посмотреть бесплатно 6. CI/CD в MLOps: GitLab и DVC — полная настройка для управления данными и ML пайплайнами 20/05/24 или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Это вводное занятие посвящено концепции Continuous Integration / Continuous Delivery (CI/CD) в контексте MLOps, фокусируясь на ключевых инструментах: GitLab CI и DVC (Data Version Control). В современных MLOps-проектах DVC используется для версионирования больших объемов данных. DVC отличается от традиционного Git тем, что он хранит метаданные и хэши файлов в репозитории Git, тогда как сами большие файлы (артефакты, такие как датасеты) помещает в удаленное S3-хранилище (например, MinIO). Эта система позволяет любому разработчику, который клонировал репозиторий, выполнить команду DVC pool, чтобы загрузить точное состояние данных, соответствующее конкретному коммиту. Помимо управления данными, DVC выполняет роль workflow-менеджера. Он позволяет описывать этапы (стейджи) обработки данных и обучения модели в виде направленного ациклического графа (DAG), определяя последовательность и зависимости между скриптами. Это обеспечивает воспроизводимость всего процесса. GitLab CI/CD — это система автоматизации, которая управляется файлом .gitlab-ci.yml. Процессы CI/CD запускаются на GitLab Runner — отдельном сервере, который выполняет консольные команды. Интеграция DVC и GitLab CI позволяет использовать CI-пайплайн для запуска команды DVC repro. Выполнение полного пайплайна DVC в раннере служит интеграционным тестом для проверки того, что все скрипты обработки данных и обучения работают без ошибок, гарантируя качество кода перед его слиянием в основную ветку. Также обсуждается необходимость создания отдельного репозитория для инфраструктуры (S3, MLflow, базы данных), который должен быть настроен на Continuous Deployment (CD), чтобы автоматически развертывать сервисы при изменениях конфигурации