• ClipSaver
  • dtub.ru
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

【S4E8】Guardian of Trust in Language Models: Automatic Jailbreak and Systematic Defense скачать в хорошем качестве

【S4E8】Guardian of Trust in Language Models: Automatic Jailbreak and Systematic Defense 1 год назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
【S4E8】Guardian of Trust in Language Models: Automatic Jailbreak and Systematic Defense
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: 【S4E8】Guardian of Trust in Language Models: Automatic Jailbreak and Systematic Defense в качестве 4k

У нас вы можете посмотреть бесплатно 【S4E8】Guardian of Trust in Language Models: Automatic Jailbreak and Systematic Defense или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон 【S4E8】Guardian of Trust in Language Models: Automatic Jailbreak and Systematic Defense в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



【S4E8】Guardian of Trust in Language Models: Automatic Jailbreak and Systematic Defense

#artificialintelligence #aisafety #computervision ABS: Large Language Models (LLMs) excel in Natural Language Processing (NLP) with human-like text generation, but the misuse of them has raised a significant concern. In this talk, we introduce an innovative system designed to address these challenges. Our system leverages LLMs to play different roles, simulating various user personas to generate "jailbreaks" – prompts that can induce LLMs to produce outputs contrary to ethical standards or specific guidelines. Utilizing a knowledge graph, our method efficiently creates new jailbreaks, testing the LLMs' adherence to governmental and ethical guidelines. Empirical validation on diverse models, including Vicuna-13B, LongChat-7B, Llama-2-7B, and ChatGPT, has demonstrated its efficacy. The system's application extends to Visual Language Models, highlighting its versatility in multimodal contexts. The second part of our talk shifts focus to defensive strategies against such jailbreaks. Recent studies have uncovered various attacks that can manipulate LLMs, including manual and gradient-based jailbreaks. Our work delves into the development of robust prompt optimization as a novel defense mechanism, inspired from principled solutions from trustworthy machine learning. This approach involves system prompts – parts of the input text inaccessible to users – and aims to counter both manual and gradient-based attacks effectively. Despite current methods, adaptive attacks like GCG remain a challenge, necessitating a formalized defensive objective. Our research proposes such an objective and demonstrates how robust prompt optimization can enhance the safety of LLMs, safeguarding against realistic threat models and adaptive attacks. Bio: Haohan Wang is an assistant professor in the School of Information Sciences at the University of Illinois Urbana-Champaign. His research focuses on the development of trustworthy machine learning methods for computational biology and healthcare applications. In his work, he uses statistical analysis and deep learning methods, with an emphasis on data analysis using methods least influenced by spurious signals. Wang earned his PhD in computer science through the Language Technologies Institute of Carnegie Mellon University. He is also an organizer of Trustworthy Machine Learning Initiative.

Comments
  • 【S4E3】Distilling Vision-Language Models on Millions of Videos 1 год назад
    【S4E3】Distilling Vision-Language Models on Millions of Videos
    Опубликовано: 1 год назад
  • 【S4E6】Learning Humanoid Robots 1 год назад
    【S4E6】Learning Humanoid Robots
    Опубликовано: 1 год назад
  • Make safety choices based on FMEDA - EN61508 1 день назад
    Make safety choices based on FMEDA - EN61508
    Опубликовано: 1 день назад
  • Лучший документальный фильм про создание ИИ 4 недели назад
    Лучший документальный фильм про создание ИИ
    Опубликовано: 4 недели назад
  • 【S4E2】Towards Learning a Driving Simulator from the Real World 1 год назад
    【S4E2】Towards Learning a Driving Simulator from the Real World
    Опубликовано: 1 год назад
  • Designing Human-AI Decision Systems with Behavioral Insights: Incentives, Transparency, and Learning 1 месяц назад
    Designing Human-AI Decision Systems with Behavioral Insights: Incentives, Transparency, and Learning
    Опубликовано: 1 месяц назад
  • ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию? 2 месяца назад
    ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?
    Опубликовано: 2 месяца назад
  • Как внимание стало настолько эффективным [GQA/MLA/DSA] 2 месяца назад
    Как внимание стало настолько эффективным [GQA/MLA/DSA]
    Опубликовано: 2 месяца назад
  • Экспресс-курс RAG для начинающих 4 месяца назад
    Экспресс-курс RAG для начинающих
    Опубликовано: 4 месяца назад
  • [S5E2] Video Models Are Zero-Shot Learners and Reasoners | Thaddäus Wiedemer | Google Deepmind 3 месяца назад
    [S5E2] Video Models Are Zero-Shot Learners and Reasoners | Thaddäus Wiedemer | Google Deepmind
    Опубликовано: 3 месяца назад
  • LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили! 2 месяца назад
    LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!
    Опубликовано: 2 месяца назад
  • 【S4E7】Towards democratising robot learning for all 1 год назад
    【S4E7】Towards democratising robot learning for all
    Опубликовано: 1 год назад
  • Новое инженерное решение - неограниченный контекст и предсказуемые рассуждения - Recursive LM. 9 дней назад
    Новое инженерное решение - неограниченный контекст и предсказуемые рассуждения - Recursive LM.
    Опубликовано: 9 дней назад
  • CMU Advanced NLP Fall 2024 (10): Retrieval and RAG 1 год назад
    CMU Advanced NLP Fall 2024 (10): Retrieval and RAG
    Опубликовано: 1 год назад
  • Lecture 01: Course Overview (CMU 15-462/662) 5 лет назад
    Lecture 01: Course Overview (CMU 15-462/662)
    Опубликовано: 5 лет назад
  • Мы стоим на пороге нового конфликта! Что нас ждет дальше? Андрей Безруков про США, Россию и кризис 8 дней назад
    Мы стоим на пороге нового конфликта! Что нас ждет дальше? Андрей Безруков про США, Россию и кризис
    Опубликовано: 8 дней назад
  • CMU Advanced NLP Fall 2025 (1): Introduction & Fundamentals 5 месяцев назад
    CMU Advanced NLP Fall 2025 (1): Introduction & Fundamentals
    Опубликовано: 5 месяцев назад
  • CMU LLM Inference (1): Introduction to Language Models and Inference 4 месяца назад
    CMU LLM Inference (1): Introduction to Language Models and Inference
    Опубликовано: 4 месяца назад
  • Как создаются степени магистра права? 2 месяца назад
    Как создаются степени магистра права?
    Опубликовано: 2 месяца назад
  • 【S4E1】InstantID: Zero-shot Identity-Preserving Generation in Seconds 1 год назад
    【S4E1】InstantID: Zero-shot Identity-Preserving Generation in Seconds
    Опубликовано: 1 год назад

Контактный email для правообладателей: u2beadvert@gmail.com © 2017 - 2026

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5