У нас вы можете посмотреть бесплатно Сжатие (Ричард Саттон – отец RL считает, что LLM – это тупик) или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Ричард Саттон, основатель обучения с подкреплением (RL) и изобретатель таких базовых методов, как **TD-обучение и методы градиента политики**, противопоставляет подход RL к искусственному интеллекту (ИИ) современной парадигме, в которой доминируют большие языковые модели (LLM). Саттон получил премию Тьюринга за свою основополагающую работу. Обучение с подкреплением против больших языковых моделей Саттон утверждает, что *RL — это базовый ИИ**, фундаментально ориентированный на **понимание вашего мира**. Он считает, что основная проблема интеллекта — это понимание вашего мира. В отличие от этого, большие языковые модели в первую очередь занимаются **подражанием людям* и выполнением того, что люди предлагают вам делать. Саттон категорически не согласен с утверждением, что LLM обладают надёжными моделями мира. Он утверждает, что, хотя они могут предсказать, что скажет человек, им не хватает способности предсказывать, что произойдёт в мире. Истинная модель мира позволила бы агенту предсказывать последствия. Следовательно, магистры права не будут «застигнуты врасплох» неожиданными событиями и не будут корректировать своё обучение в соответствии с новым опытом. Главный аргумент в пользу отсутствия у магистров права цели. Саттон считает, что наличие **цели — это суть интеллекта**, ссылаясь на определение Джона Маккарти, что интеллект — это вычислительная составляющая способности достигать целей. Без цели нет основополагающей истины, то есть нет и неотъемлемого определения того, «что сказать правильно». В рамках обучения с подкреплением правильное действие чётко определяется как **действие, которое приносит вознаграждение**. Обучение на опыте Саттон различает методы обучения: *магистры права обучаются на обучающих данных:* Они обучаются на триллионах токенов интернет-текста, представляющих ситуации и действия человека, неявно предполагая имитацию. Эти обучающие данные никогда не будут доступны в обычной жизни агента. * *Обучение с подкреплением (RL) основано на опыте:* Опыт определяется как то, что фактически происходит в вашей жизни после выполнения действия. Саттон утверждает, что **обучение с учителем не встречается в природе в широком смысле**; животные, такие как белки, познают мир, не посещая школу и не имея примеров желаемого поведения. Он рассматривает экспериментальную парадигму (RL) как по-настоящему масштабируемый метод разработки ИИ, основанный на непрерывном обучении в процессе обычного взаимодействия с миром. Модель агента RL в основном состоит из четырёх компонентов: 1. *Политика:* Что агент должен делать в данной ситуации. 2. *Функция ценности:* Число, полученное в ходе обучения TD, которое предсказывает долгосрочный результат и используется для корректировки политики. 3. *Восприятие:* Построение представления состояния (восприятия агентом своего текущего положения). 4. **Переходная модель мира**: убеждение агента о последствиях своих действий — его абстрактные или физические модели мира. Эта модель формируется на основе **всех ощущений**, получаемых агентом, а не только вознаграждения. Обучение на основе временных разниц (TD) позволяет агенту связывать краткосрочные действия с долгосрочными целями. Например, когда агент продвигается к 10-летней цели (например, выходу из стартапа), промежуточный шаг немедленно подкрепляется соответствующим увеличением прогноза функции ценности относительно долгосрочной выгоды. Горький урок и траектория развития ИИ Он отмечает, что простые базовые методы, такие как *обучение и поиск* (которые когда-то назывались «слабыми методами»), решительно победили в центральном конфликте с первых дней развития ИИ. Успех AlphaZero, использовавшей TD-обучение и поиск для достижения сверхчеловеческих результатов в таких играх, как го и шахматы, был обнадеживающим, поскольку демонстрировал простые принципы масштабирования (аналогичные более ранней системе TD-Gammon). Хотя LLM-программы используют огромные вычисления, они также интегрируют огромный объём человеческих знаний. Саттон ожидает, что системы, обучающиеся исключительно на **опыте и вычислениях**, в конечном итоге вытеснят LLM-программы, что является ещё одним примером горького урока. Он считает себя классиком, который делает акцент на общих процессах обучения животных при разработке ИИ. Преемственность ИИ и эпоха дизайна Саттон считает, что **преемственность цифрового интеллекта или дополненных людей неизбежна**. Его аргументация основана на четырёх предпосылках: у человечества нет единой управляющей организации; исследователи в конечном итоге поймут, как работает интеллект; сверхразум будет достигнут; и наиболее разумные существа неизбежно со временем получат ресурсы и власть. Он рассматривает этот переход позитивно, рассматривая его как важный этап в развитии Вселенной: переход от *эпохи репликации* (людей, животных, растений) к **эпохе проектирования**. Спроектированные ИИ — это системы, внутренние механизмы которых понятны, их можно изменять и конструировать, что позво...