У нас вы можете посмотреть бесплатно Многоязычный Генеративный ИИ Аватар: Локальное и Облачное Развертывание в Реальном Времени или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Демонстрационное видео представляет легковесную мультиязычную систему аватаров, разработанную для взаимодействия человека и искусственного интеллекта (HAII) в реальном времени на казахском, русском и английском языках. Мы предлагаем и оцениваем две архитектуры развертывания: облачную и локальную, обе из которых используют модели, разработанные в Институте умных систем и искусственного интеллекта (ISSAI). Облачное решение использует большую языковую модель (LLM) Oylan и интерфейсы прикладного программирования (API) MangiSoz. Локальная структура интегрирует квантованную визо-языковую модель Qolda от ISSAI (4,3 млрд параметров) с инструментами обработки речи на устройстве: Whisper Turbo для автоматического распознавания речи (ASR) и Matcha-TTS для синтеза речи. Интерфейс аватара создан с использованием технологии Ready Player Me. Система была оценена с использованием запросов на казахском языке. Результаты показывают, что локальное развертывание обеспечивает существенные преимущества в производительности, сокращая сквозную задержку ответа на 62% (2,20 с против 5,74 с) по сравнению с облачной альтернативой. Наиболее значительное улучшение наблюдалось в инференсе языковой модели, где локально развернутая квантованная модель Qolda достигла на 76% более быстрой обработки (0,99 с против 4,11 с), чем облачный API. Архитектурный анализ подтверждает эффективность системы: рендеринг аватара потреблял 15-20% ресурсов графического процессора (GPU), поддерживая стабильные 60 кадров в секунду (FPS), оставляя 80-85% мощности для одновременного выполнения моделей ИИ. Результаты исследования подтверждают, что малые языковые модели (SLM) на устройстве могут обеспечивать отзывчивое автономное взаимодействие, подходящее для широкого применения в трехъязычной среде Казахстана.