У нас вы можете посмотреть бесплатно PyTorch Day India 2026 Why Speech Recognition Is Becoming an LLM Problem! Abhigyan Raman, Sarvam ai или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Problem Framing: Speech is the most natural interface for humans—but historically the hardest modality to scale. In multilingual regions like India, text-first AI systems struggle for deep penetration making way for speech as the default gateway to equitable AI access. Core Thesis: ASR has transitioned from acoustic-first pipelines to an LLM-first paradigm. Modern decoder-only Audio LLMs treat speech as another tokenized modality, unlocking better multilingual scaling, reasoning, and adaptation. What This Talk Covers: Evolution of ASR architectures: CTC → Encoder–Decoder (with cross-attention) → Decoder-only Audio LLMs Why alignment (audio → token space) is the key technical unlock Tradeoffs across pradigmns: latency, streaming, robustness, multilinguality Practical post-training strategies for domain- and language-specific ASR Why It Matters: This shift collapses the boundary between speech recognition and language understanding—making speech a first-class citizen in foundation model stacks.