У нас вы можете посмотреть бесплатно Ce qui rend l’IA en local possible sur un simple PC. или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Pourquoi un modèle de 30 milliards de paramètres peut tourner sur un PC “classique”… alors qu’en théorie il faudrait des centaines de Go de mémoire et plusieurs GPU ? La réponse tient en un mot : la quantization. Dans cette vidéo, je t’explique simplement ce que fait la quantization, pourquoi elle change tout pour faire tourner des modèles en local. L’idée est claire : on réduit la précision numérique des poids (et parfois des activations) pour alléger le modèle, gagner en VRAM, accélérer l’inférence, et rendre l’IA locale accessible sur beaucoup plus de configurations. On passe ensuite du concret au réel avec une démo : je compare le même modèle (Qwen3 4B) en 4 bits vs FP16 avec Ollama. Tu vois la différence de taille sur disque, l’allocation mémoire au chargement, et la vitesse de génération. C’est le genre de comparaison qui met fin aux débats théoriques. Enfin, on fait le point sur les types de quantization (post-training, statique, dynamique) et sur le compromis fondamental : performance vs précision. La quantization n’ajoute pas d’intelligence et ne réentraîne rien. Elle échange un peu de précision contre de l’accessibilité, et ce coût dépend surtout des usages. Au programme : Définition claire de la quantization (poids, activations) Exemples FP32, FP16, INT8, INT4 et impact mémoire Pourquoi ça rend possible l’exécution en local (VRAM, compat matériel, énergie) Démo Ollama : Qwen3 4B en 4 bits vs FP16 (taille, RAM, vitesse) Types de quantization : post-training, statique, dynamique Quel format choisir selon ses tâches (chat, résumé, code, maths, agents) Chapitres de la vidéo 00:00 Introduction 00:20 La quantization c'est quoi ? 01:33 Le gain mémoire 03:16 Ce que ne fait pas la quantization 03:30 Ce qu'on gagne avec la quantization 04:15 Le prix à payer : précision et instabilité.. 04:41 Pourquoi c’est crucial pour l’IA local 05:39 Exemple : 13B sans quantization vs avec 06:10 Démo Ollama - modèles INT4 vs FP16 10:05 Les types de quantization (post-training, statique, dynamique) 12:02 Le compromis performance vs précision 13:25 Tableau de compromis selon matériel et usage 15:23 Conclusion ✉️mail pro contact : initiumcontactus@gmail.com 🧡Abonne-toi en cliquant ici 👉 / @initium0_0 🔔Active la cloche pour savoir quand une vidéo est publiée 📳 ⏬Retrouvez-moi sur ⏬ 👉 Instagram : / real_initium