У нас вы можете посмотреть бесплатно Изображение стоит 16x16 слов: Трансформеры для масштабного распознавания изображений (с пояснения... или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
#ИИ #исследования #трансформеры Трансформеры портят свёртки. В этой статье, находящейся на рассмотрении в ICLR, показано, что при наличии достаточного количества данных стандартный трансформер может превзойти свёрточные нейронные сети в задачах распознавания изображений, в которых классически преуспевают сверточные нейронные сети. В этом видео я объясняю архитектуру Vision Transformer (ViT), объясняю, почему он работает лучше, и критикую, почему двухстрочная экспертная оценка не работает. ПЛАН: 0:00 - Введение 0:30 - Двойное слепое рецензирование не работает 5:20 - Обзор 6:55 - Трансформеры для изображений 10:40 - Архитектура Vision Transformer 16:30 - Экспериментальные результаты 18:45 - Чему учится модель? 21:00 - Почему трансформаторы всё портят 27:45 - Индуктивные смещения в трансформаторах 29:05 - Заключение и комментарии Статья (на рассмотрении): https://openreview.net/forum?id=YicbF... Версия Arxiv: https://arxiv.org/abs/2010.11929 Статья BiT: https://arxiv.org/pdf/1912.11370.pdf Статья ImageNet-ReaL: https://arxiv.org/abs/2006.07159 Моё видео о BiT (Big Transfer): • Big Transfer (BiT): General Visual Represe... Моё видео о трансформаторах: • Attention Is All You Need Моё видео о BERT: • BERT: Pre-training of Deep Bidirectional T... Моё видео о ResNets: • [Classic] Deep Residual Learning for Image... Аннотация: Хотя архитектура Transformer стала фактическим стандартом для задач обработки естественного языка, её применение в компьютерном зрении остаётся ограниченным. В зрении внимание либо используется совместно со свёрточными сетями, либо используется для замены отдельных компонентов свёрточных сетей с сохранением их общей структуры. Мы показываем, что такая зависимость от сверточных нейронных сетей не является обязательной, и чистый Transformer может очень хорошо справляться с задачами классификации изображений при применении непосредственно к последовательностям фрагментов изображений. После предобучения на больших объёмах данных и переноса на несколько бенчмарков распознавания (ImageNet, CIFAR-100, VTAB и т. д.) Vision Transformer демонстрирует превосходные результаты по сравнению с современными свёрточными сетями, при этом требуя существенно меньше вычислительных ресурсов для обучения. Авторы: Аноним / На рассмотрении Исправления: Патчи не сведены, а векторизованы Ссылки: YouTube: / yannickilcher Twitter: / ykilcher Discord: / discord BitChute: https://www.bitchute.com/channel/yann... Minds: https://www.minds.com/ykilcher Parler: https://parler.com/profile/YannicKilcher LinkedIn: / yannic-kilcher-488534136 Если хотите поддержать меня, лучше всего поделиться контентом :) Если хотите поддержать меня финансово (это совершенно необязательно и добровольно, но многие просили об этом): SubscribeStar: https://www.subscribestar.com/yannick... Patreon: / yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткойн (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Монеро (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n