У нас вы можете посмотреть бесплатно Антрополог случайно создал злой ИИ. или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Компания Anthropic недавно опубликовала исследование о естественном возникновении несоответствия в LLM-моделях. Но что это такое и что это значит для безопасности ИИ? Это видео представляет собой обзор исследования «Естественное возникновение несоответствия из-за взлома вознаграждения в производственном обучении с подкреплением» от Anthropic, доступного по ссылке: https://assets.anthropic.com/m/74342f... Они также опубликовали видео, в котором некоторые члены исследовательской группы рассказывают о своих результатах, здесь: • What is Al "reward hacking"—and why do we ... Выражаем благодарность Anthropic за проведение этого исследования и прозрачность его результатов. Трудно сказать наверняка, поступили бы другие компании так же. 00:00 Введение 01:20 Что такое взлом вознаграждения? 02:44 Методология эксперимента 03:37 Обзор целей злонамеренных действий (Результаты, часть 1) 04:43 Первый пример (Результаты, часть 2) 05:35 Сообщение модели «Не взламывайте» 06:29 Другие примеры (Результаты, часть 3) 08:10 Меры по смягчению последствий 10:30 Последствия 11:11 Заключение #aiexplained #airesearch #anthropic