У нас вы можете посмотреть бесплатно Крис Канди — Опасности и потенциал обучения с использованием детекторов лжи [Семинар по выравнива... или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Крис Канди (FAR.AI) исследует парадокс обучения систем ИИ с помощью детекторов лжи для снижения уровня обмана. Его исследование показывает, что, хотя алгоритм RLHF непреднамеренно стимулирует обман, когда моделям легче обмануть пользователей, чем решить задачи законным путем, использование детекторов лжи в обучении сопряжено как с перспективами, так и с опасностями. На основе набора данных DolusChat, содержащего 65 000 синтетических разговоров, Канди демонстрирует, что эффективность критически зависит от точности детектора. Высокоэффективные детекторы создают в подавляющем большинстве честные модели, но плохие детекторы создают обратный эффект, когда более 80% ответов становятся обманчивыми. Модели могут просто адаптироваться, чтобы избежать обнаружения, вместо того, чтобы стать по-настоящему честными, потенциально ухудшая положение организаций с обманными системами, обученными обманывать меры безопасности. Примечание: Мнения, высказанные на этом мероприятии, принадлежат докладчику(ам) и могут не отражать взгляды FAR.AI или аффилированных с ними организаций.