• ClipSaver
  • dtub.ru
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

End-to-End (small) Vision Language Model Fine-tuning Tutorial | On DGX Spark скачать в хорошем качестве

End-to-End (small) Vision Language Model Fine-tuning Tutorial | On DGX Spark 2 месяца назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
End-to-End (small) Vision Language Model Fine-tuning Tutorial | On DGX Spark
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: End-to-End (small) Vision Language Model Fine-tuning Tutorial | On DGX Spark в качестве 4k

У нас вы можете посмотреть бесплатно End-to-End (small) Vision Language Model Fine-tuning Tutorial | On DGX Spark или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон End-to-End (small) Vision Language Model Fine-tuning Tutorial | On DGX Spark в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



End-to-End (small) Vision Language Model Fine-tuning Tutorial | On DGX Spark

In this video we fine-tune Hugging Face's SmolVLM2-500M Vision Language Model do structured data extraction from images. Because the SmolVLM2-500M model is is quite small in world of LLMs/VLMs, we're able to do all of the training locally on a NVIDIA DGX Spark (see here for more: https://nvda.ws/4iQXZU4). The code should also run in Google Colab. If you have any issues, please let me know in a comment. Links: Google Colab Notebook - https://colab.research.google.com/dri... GitHub - https://github.com/mrdbourke/learn-hu... Learn Hugging Face Book Version - https://www.learnhuggingface.com/note... Dataset - https://huggingface.co/datasets/mrdbo... Base model (SmolVLM2-500M) - https://huggingface.co/HuggingFaceTB/... Demo - https://huggingface.co/spaces/mrdbour... Livestreams (where I build this project from scratch): Part 1: Creating a VLM dataset - https://www.youtube.com/live/cZVU559B... Part 2: Fine-tuning a VLM with LoRA and QLoRA and getting many errors (mostly my fault) - https://www.youtube.com/live/Lgcp9hBq... Part 3: Switching from using LoRA and QLoRA (we’ll do these in a future video) to fine-tuning a smaller model (SmolVLM2) successfully, uploading it to the Hugging Face Hub and then creating an publishing a demo - https://youtube.com/live/cZVU559BLLM?... Courses I teach: Learn AI/ML (beginner-friendly course) - https://dbourke.link/ZTMMLcourse Learn Hugging Face - https://dbourke.link/ZTMHuggingFace Learn TensorFlow - https://dbourke.link/ZTMTFcourse Learn PyTorch - https://dbourke.link/ZTMPyTorch Connect elsewhere: Download Nutrify (my startup) - https://apple.co/4ahM7Wc My website - https://www.mrdbourke.com X/Twitter -   / mrdbourke   LinkedIn - www.linkedin.com/in/mrdbourke Get email updates on my work - https://dbourke.link/newsletter Read my novel Charlie Walks - https://www.charliewalks.com Timestamps: 00:00:00 - Introduction 00:02:19 - What is a VLM? 00:03:45 - Why fine-tune your own model? 00:06:05 - LLM fine-tuning mindset 00:06:51 - Case study: Nutrify 00:09:16 - Case study: Invoice Extractor 00:11:06 - Ingredients and tools we're going to use 00:12:16 - Exploring the FoodExtract-1k-Vision dataset 00:15:52 - My setup 00:16:13 - Dataset formatting for VLMs 00:16:54 - Dataset Creation for VLMs 00:17:20 - Getting a model to fine-tune 00:18:13 - Our task overview (structured data extraction from images) 00:20:11 - What we're going to end up with 00:22:38 - Code Starts 00:23:31 - Viewing a single data sample 00:29:08 - Splitting our data into train and test sets 00:34:25 - Inspecting our model's architecture 00:40:03 - Reading the recipe of the SmolDocling paper 00:45:29 - Freezing the vision encoder in our model 00:47:34 - Discussing batch sizes 00:49:06 - Setting up SFTConfig 00:52:03 - Training our model with SFTTrainer 00:54:11 - Model training starts 00:54:19 - Model training finishes 00:56:13 - Inspecting our model's loss curves 00:57:10 - Uploading our trained model to Hugging Face 00:58:19 - Model uploading to Hugging Face begins 00:58:26 - Model uploading finishes 00:59:38 - Comparing the base model to the fine-tuned model 01:01:06 - Viewing our fine-tuned model's first predictions 01:03:35 - Creating a demo with Gradio 01:06:46 - Uploading our demo to the Hugging Face Hub 01:07:35 - Trying out our demo 01:08:27 - What's next and extensions

Comments
  • Local Multimodal RAG Pipeline End-to-End Tutorial | On DGX Spark 1 месяц назад
    Local Multimodal RAG Pipeline End-to-End Tutorial | On DGX Spark
    Опубликовано: 1 месяц назад
  • I Thought DGX Spark Was Slower… Until I Changed ONE Thing 1 месяц назад
    I Thought DGX Spark Was Slower… Until I Changed ONE Thing
    Опубликовано: 1 месяц назад
  • Mastering Multi-Vendor Fleets: Solving Robot Interoperability in 2026 6 дней назад
    Mastering Multi-Vendor Fleets: Solving Robot Interoperability in 2026
    Опубликовано: 6 дней назад
  • Управление поведением LLM без тонкой настройки 3 месяца назад
    Управление поведением LLM без тонкой настройки
    Опубликовано: 3 месяца назад
  • EASIEST Way to Fine-Tune a LLM and Use It With Ollama 8 месяцев назад
    EASIEST Way to Fine-Tune a LLM and Use It With Ollama
    Опубликовано: 8 месяцев назад
  • Распаковка, настройка и первые впечатления от NVIDIA DGX Spark — One plug AI. 3 месяца назад
    Распаковка, настройка и первые впечатления от NVIDIA DGX Spark — One plug AI.
    Опубликовано: 3 месяца назад
  • Мыльный пузырь ИИ 2.0: проблемы США, Китая и России. Павел Paperclip 1 день назад
    Мыльный пузырь ИИ 2.0: проблемы США, Китая и России. Павел Paperclip
    Опубликовано: 1 день назад
  • LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры 1 год назад
    LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры
    Опубликовано: 1 год назад
  • Add iOS App Store Subscriptions to Expo + RevenueCat Starter in 30 Minutes! 10 дней назад
    Add iOS App Store Subscriptions to Expo + RevenueCat Starter in 30 Minutes!
    Опубликовано: 10 дней назад
  • Маленькие языковые модели | Open source, локальный ИИ, SLM | Podlodka Podcast #468 21 час назад
    Маленькие языковые модели | Open source, локальный ИИ, SLM | Podlodka Podcast #468
    Опубликовано: 21 час назад
  • Давайте обучим языковые модели обработки изображений (VLM) с нуля, используя только текстовые язы... 1 месяц назад
    Давайте обучим языковые модели обработки изображений (VLM) с нуля, используя только текстовые язы...
    Опубликовано: 1 месяц назад
  • But how do AI images and videos actually work? | Guest video by Welch Labs 7 месяцев назад
    But how do AI images and videos actually work? | Guest video by Welch Labs
    Опубликовано: 7 месяцев назад
  • Новый язык программирования для эпохи ИИ 8 дней назад
    Новый язык программирования для эпохи ИИ
    Опубликовано: 8 дней назад
  • Local LLM Fine-tuning on Mac (M1 16GB) 1 год назад
    Local LLM Fine-tuning on Mac (M1 16GB)
    Опубликовано: 1 год назад
  • NVIDIA DGX Spark против RTX 4090 | Вывод LLM, скорость обучения и многое другое 1 месяц назад
    NVIDIA DGX Spark против RTX 4090 | Вывод LLM, скорость обучения и многое другое
    Опубликовано: 1 месяц назад
  • What Are Vision Language Models? How AI Sees & Understands Images 10 месяцев назад
    What Are Vision Language Models? How AI Sees & Understands Images
    Опубликовано: 10 месяцев назад
  • Меня Заставляют МОЛЧАТЬ! КРЁСТНЫЙ ОТЕЦ ИИ Выдал Что Нас Ждёт! ОНИ СОЗДАЛИ ТО, ЧТО УБЬЁТ ВСЁ 16 часов назад
    Меня Заставляют МОЛЧАТЬ! КРЁСТНЫЙ ОТЕЦ ИИ Выдал Что Нас Ждёт! ОНИ СОЗДАЛИ ТО, ЧТО УБЬЁТ ВСЁ
    Опубликовано: 16 часов назад
  • Fine-Tune Visual Language Models (VLMs) - HuggingFace, PyTorch, LoRA, Quantization, TRL 1 год назад
    Fine-Tune Visual Language Models (VLMs) - HuggingFace, PyTorch, LoRA, Quantization, TRL
    Опубликовано: 1 год назад
  • RAG & MCP Fundamentals – A Hands-On Crash Course 1 месяц назад
    RAG & MCP Fundamentals – A Hands-On Crash Course
    Опубликовано: 1 месяц назад
  • LLMs Meet Robotics: What Are Vision-Language-Action Models? (VLA Series Ep.1) 6 месяцев назад
    LLMs Meet Robotics: What Are Vision-Language-Action Models? (VLA Series Ep.1)
    Опубликовано: 6 месяцев назад

Контактный email для правообладателей: u2beadvert@gmail.com © 2017 - 2026

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5