У нас вы можете посмотреть бесплатно Вэйцзя Ши и Сяочуан Хань — адаптация предобученных языковых моделей для мультимедиа или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Мы представляем LMFusion, фреймворк для расширения возможностей мультимодальной генерации предварительно обученных больших языковых моделей (LLM), работающих только с текстом, позволяя им понимать и генерировать как текст, так и изображения в произвольных последовательностях. LMFusion использует существующие весовые коэффициенты Llama-3 для обработки текстов методом авторегрессии, а также добавляет дополнительные параллельные модули преобразования для обработки изображений с диффузией. Во время обучения данные от каждой модальности направляются в соответствующие модули: слои прямого распространения, проекции запросов «ключ-значение» и слои нормализации обрабатывают каждую модальность независимо, в то время как общие слои внутреннего внимания обеспечивают взаимодействие между признаками текста и изображений. Замораживая текстовые модули и обучая только модули, работающие с изображениями, LMFusion сохраняет языковые возможности LLM, работающих только с текстом, одновременно развивая сильные навыки визуального понимания и генерации. По сравнению с методами, которые предобучают мультимодальные генеративные модели с нуля, наши эксперименты показывают, что LMFusion улучшает понимание изображений на 20% и генерацию изображений на 3,6%, используя всего 50% от FLOP, сохраняя при этом языковые возможности Llama-3. Мы также демонстрируем, что этот фреймворк может адаптировать существующие модели визуального языка с возможностью мультимодальной генерации. В целом, этот фреймворк не только использует существующие вычислительные инвестиции в текстовые LLM, но и обеспечивает параллельную разработку языковых и визуальных возможностей, открывая перспективное направление для эффективной разработки мультимодальных моделей. Вэйцзя Ши — аспирант Вашингтонского университета. Её исследования сосредоточены на предобучении LM и моделях с дополненным поиском. Она также изучает мультимодальные рассуждения и исследует риски, связанные с авторскими правами и конфиденциальностью, связанные с LM. Она получила награду за выдающуюся работу на конференции ACL 24 и была признана восходящей звездой машинного обучения в 2023 году. Сяочуан Хань — научный сотрудник Meta FAIR. Недавно он получил докторскую степень в Вашингтонском университете. Его работа сосредоточена на мультимодальном генеративном ИИ. Эта сессия организована сообществом Cohere Labs Open Science Community — площадкой, где исследователи машинного обучения, инженеры, лингвисты, социологи и те, кто учится всю жизнь, общаются и сотрудничают друг с другом. Мы хотели бы выразить особую благодарность Ахмаду Анису и Канвалу Мехрину, руководителю нашей группы Geo Regional Asia, за их вклад в организацию этого мероприятия. Если вы хотите поделиться своей работой, присоединяйтесь к нам! Просто заполните форму по адресу https://forms.gle/ALND9i6KouEEpCnz6, чтобы выразить свою заинтересованность в выступлении. Присоединяйтесь к сообществу Cohere Labs Open Science Community, чтобы ознакомиться с полным списком предстоящих мероприятий (https://tinyurl.com/CohereLabsCommuni....