У нас вы можете посмотреть бесплатно Optimize LLM on edge device: Tiny chat demo или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Running large language models (LLMs) on the edge is of great importance. By embedding LLMs directly into real-world systems such as in-car entertainment systems or spaceship control interfaces, users can access instant responses and services without relying on a stable internet connection. However, despite their impressive capabilities, LLMs have traditionally been quite resource-intensive. This video explains my implementation of deploying an LLaMA2-7B-chat with TinyChatEngine on my computer. To achieve this, I implement ed different optimization techniques (loop unrolling, multithreading, and SIMD programming) for the linear kernel. 00:00 – Introduction 00:49 – Reference implementation 02:30 – Loop Unrolling 04:45 – Multihtreading 07:56 – SIMD 10:38 – Device information and whole demo For implementation report: https://docs.google.com/document/d/1q... MIT 6.5940 TinyML and Efficient Deep Learning Computing https://hanlab.mit.edu/courses/2023-f...