• ClipSaver
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

Сжатие (Ричард Саттон – отец RL считает, что LLM – это тупик) скачать в хорошем качестве

Сжатие (Ричард Саттон – отец RL считает, что LLM – это тупик) 1 день назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Сжатие (Ричард Саттон – отец RL считает, что LLM – это тупик)
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: Сжатие (Ричард Саттон – отец RL считает, что LLM – это тупик) в качестве 4k

У нас вы можете посмотреть бесплатно Сжатие (Ричард Саттон – отец RL считает, что LLM – это тупик) или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон Сжатие (Ричард Саттон – отец RL считает, что LLM – это тупик) в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



Сжатие (Ричард Саттон – отец RL считает, что LLM – это тупик)

Ричард Саттон, основатель обучения с подкреплением (RL) и изобретатель таких базовых методов, как **TD-обучение и методы градиента политики**, противопоставляет подход RL к искусственному интеллекту (ИИ) современной парадигме, в которой доминируют большие языковые модели (LLM). Саттон получил премию Тьюринга за свою основополагающую работу. Обучение с подкреплением против больших языковых моделей Саттон утверждает, что *RL — это базовый ИИ**, фундаментально ориентированный на **понимание вашего мира**. Он считает, что основная проблема интеллекта — это понимание вашего мира. В отличие от этого, большие языковые модели в первую очередь занимаются **подражанием людям* и выполнением того, что люди предлагают вам делать. Саттон категорически не согласен с утверждением, что LLM обладают надёжными моделями мира. Он утверждает, что, хотя они могут предсказать, что скажет человек, им не хватает способности предсказывать, что произойдёт в мире. Истинная модель мира позволила бы агенту предсказывать последствия. Следовательно, магистры права не будут «застигнуты врасплох» неожиданными событиями и не будут корректировать своё обучение в соответствии с новым опытом. Главный аргумент в пользу отсутствия у магистров права цели. Саттон считает, что наличие **цели — это суть интеллекта**, ссылаясь на определение Джона Маккарти, что интеллект — это вычислительная составляющая способности достигать целей. Без цели нет основополагающей истины, то есть нет и неотъемлемого определения того, «что сказать правильно». В рамках обучения с подкреплением правильное действие чётко определяется как **действие, которое приносит вознаграждение**. Обучение на опыте Саттон различает методы обучения: *магистры права обучаются на обучающих данных:* Они обучаются на триллионах токенов интернет-текста, представляющих ситуации и действия человека, неявно предполагая имитацию. Эти обучающие данные никогда не будут доступны в обычной жизни агента. * *Обучение с подкреплением (RL) основано на опыте:* Опыт определяется как то, что фактически происходит в вашей жизни после выполнения действия. Саттон утверждает, что **обучение с учителем не встречается в природе в широком смысле**; животные, такие как белки, познают мир, не посещая школу и не имея примеров желаемого поведения. Он рассматривает экспериментальную парадигму (RL) как по-настоящему масштабируемый метод разработки ИИ, основанный на непрерывном обучении в процессе обычного взаимодействия с миром. Модель агента RL в основном состоит из четырёх компонентов: 1. *Политика:* Что агент должен делать в данной ситуации. 2. *Функция ценности:* Число, полученное в ходе обучения TD, которое предсказывает долгосрочный результат и используется для корректировки политики. 3. *Восприятие:* Построение представления состояния (восприятия агентом своего текущего положения). 4. **Переходная модель мира**: убеждение агента о последствиях своих действий — его абстрактные или физические модели мира. Эта модель формируется на основе **всех ощущений**, получаемых агентом, а не только вознаграждения. Обучение на основе временных разниц (TD) позволяет агенту связывать краткосрочные действия с долгосрочными целями. Например, когда агент продвигается к 10-летней цели (например, выходу из стартапа), промежуточный шаг немедленно подкрепляется соответствующим увеличением прогноза функции ценности относительно долгосрочной выгоды. Горький урок и траектория развития ИИ Он отмечает, что простые базовые методы, такие как *обучение и поиск* (которые когда-то назывались «слабыми методами»), решительно победили в центральном конфликте с первых дней развития ИИ. Успех AlphaZero, использовавшей TD-обучение и поиск для достижения сверхчеловеческих результатов в таких играх, как го и шахматы, был обнадеживающим, поскольку демонстрировал простые принципы масштабирования (аналогичные более ранней системе TD-Gammon). Хотя LLM-программы используют огромные вычисления, они также интегрируют огромный объём человеческих знаний. Саттон ожидает, что системы, обучающиеся исключительно на **опыте и вычислениях**, в конечном итоге вытеснят LLM-программы, что является ещё одним примером горького урока. Он считает себя классиком, который делает акцент на общих процессах обучения животных при разработке ИИ. Преемственность ИИ и эпоха дизайна Саттон считает, что **преемственность цифрового интеллекта или дополненных людей неизбежна**. Его аргументация основана на четырёх предпосылках: у человечества нет единой управляющей организации; исследователи в конечном итоге поймут, как работает интеллект; сверхразум будет достигнут; и наиболее разумные существа неизбежно со временем получат ресурсы и власть. Он рассматривает этот переход позитивно, рассматривая его как важный этап в развитии Вселенной: переход от *эпохи репликации* (людей, животных, растений) к **эпохе проектирования**. Спроектированные ИИ — это системы, внутренние механизмы которых понятны, их можно изменять и конструировать, что позво...

Comments

Контактный email для правообладателей: [email protected] © 2017 - 2025

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5