• ClipSaver
  • dtub.ru
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

42 - Owain Evans on LLM Psychology скачать в хорошем качестве

42 - Owain Evans on LLM Psychology 8 месяцев назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
42 - Owain Evans on LLM Psychology
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: 42 - Owain Evans on LLM Psychology в качестве 4k

У нас вы можете посмотреть бесплатно 42 - Owain Evans on LLM Psychology или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон 42 - Owain Evans on LLM Psychology в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



42 - Owain Evans on LLM Psychology

Earlier this year, the paper "Emergent Misalignment" made the rounds on AI x-risk social media for seemingly showing LLMs generalizing from 'misaligned' training data of insecure code to acting comically evil in response to innocuous questions. In this episode, I chat with one of the authors of that paper, Owain Evans, about that research as well as other work he's done to understand the psychology of large language models. Patreon:   / axrpodcast   Ko-fi: https://ko-fi.com/axrpodcast Transcript: https://axrp.net/episode/2025/06/06/e... Topics we discuss, and timestamps: 0:00:37 Why introspection? 0:06:24 Experiments in "Looking Inward" 0:15:11 Why fine-tune for introspection? 0:22:32 Does "Looking Inward" test introspection, or something else? 0:34:14 Interpreting the results of "Looking Inward" 0:44:56 Limitations to introspection? 0:49:54 "Tell me about yourself", and its relation to other papers 1:05:45 Backdoor results 1:12:01 Emergent Misalignment 1:22:13 Why so hammy, and so infrequently evil? 1:36:31 Why emergent misalignment? 1:46:45 Emergent misalignment and other types of misalignment 1:53:57 Is emergent misalignment good news? 2:00:01 Follow-up work to "Emergent Misalignment" 2:03:10 Reception of "Emergent Misalignment" vs other papers 2:07:43 Evil numbers 2:12:20 Following Owain's research Links for Owain: Truthful AI: https://www.truthfulai.org Owain's website: https://owainevans.github.io/ Owain's twitter/X account:   / owainevans_uk   Research we discuss: Looking Inward: Language Models Can Learn About Themselves by Introspection: https://arxiv.org/abs/2410.13787 Tell me about yourself: LLMs are aware of their learned behaviors: https://arxiv.org/abs/2501.11120 Connecting the Dots: LLMs can Infer and Verbalize Latent Structure from Disparate Training Data: https://arxiv.org/abs/2406.14546 Emergent Misalignment: Narrow fine-tuning can produce broadly misaligned LLMs: https://arxiv.org/abs/2502.17424 X/Twitter thread of GPT-4.1 emergent misalignment results: https://x.com/OwainEvans_UK/status/19... Taken out of context: On measuring situational awareness in LLMs: https://arxiv.org/abs/2309.00667

Comments
  • How AI Can Misunderstand You in Dangerous Ways 5 месяцев назад
    How AI Can Misunderstand You in Dangerous Ways
    Опубликовано: 5 месяцев назад
  • Owain Evans - Emergent Misalignment [Alignment Workshop] 8 месяцев назад
    Owain Evans - Emergent Misalignment [Alignment Workshop]
    Опубликовано: 8 месяцев назад
  • 39 - Evan Hubinger on Model Organisms of Misalignment 1 год назад
    39 - Evan Hubinger on Model Organisms of Misalignment
    Опубликовано: 1 год назад
  • 💔 УКРАИНУ ПРОЛЮБИЛИ! Зеленый орден за Шлем. РФ на Кубе, США на Кавказе. Вирус рвет зад Рады - Уралов
    💔 УКРАИНУ ПРОЛЮБИЛИ! Зеленый орден за Шлем. РФ на Кубе, США на Кавказе. Вирус рвет зад Рады - Уралов
    Опубликовано:
  • The Humanoid Takeover: $50T Market, Figure's Full Body Autonomy, and Robots in Dorms #229 20 часов назад
    The Humanoid Takeover: $50T Market, Figure's Full Body Autonomy, and Robots in Dorms #229
    Опубликовано: 20 часов назад
  • Leonard Susskind: The Mind Is Not Inside Your Brain — Physics Explains Why 2 часа назад
    Leonard Susskind: The Mind Is Not Inside Your Brain — Physics Explains Why
    Опубликовано: 2 часа назад
  • Doda - Pamiętnik (Official Video) 20 часов назад
    Doda - Pamiętnik (Official Video)
    Опубликовано: 20 часов назад
  • Prezydent wzywa szefów służb w trybie pilnym! Rosyjskie służby w cieniu polskiego Sejmu! 3 часа назад
    Prezydent wzywa szefów służb w trybie pilnym! Rosyjskie służby w cieniu polskiego Sejmu!
    Опубликовано: 3 часа назад
  • Owain Evans - Deluding AIs [ControlConf] 8 месяцев назад
    Owain Evans - Deluding AIs [ControlConf]
    Опубликовано: 8 месяцев назад
  • Почему скорость света слишком медленная, чтобы добраться до других галактик | Документальный фильм 1 день назад
    Почему скорость света слишком медленная, чтобы добраться до других галактик | Документальный фильм
    Опубликовано: 1 день назад
  • Will AI outsmart human intelligence? - with 'Godfather of AI' Geoffrey Hinton 6 месяцев назад
    Will AI outsmart human intelligence? - with 'Godfather of AI' Geoffrey Hinton
    Опубликовано: 6 месяцев назад
  • 38.0 - Zhijing Jin on LLMs, Causality, and Multi-Agent Systems 1 год назад
    38.0 - Zhijing Jin on LLMs, Causality, and Multi-Agent Systems
    Опубликовано: 1 год назад
  • AI Is Dangerous, but Not for the Reasons You Think | Sasha Luccioni | TED 2 года назад
    AI Is Dangerous, but Not for the Reasons You Think | Sasha Luccioni | TED
    Опубликовано: 2 года назад
  • Fine Tuning Large Language Models with InstructLab 1 год назад
    Fine Tuning Large Language Models with InstructLab
    Опубликовано: 1 год назад
  • The Catastrophic Risks of AI — and a Safer Path | Yoshua Bengio | TED 8 месяцев назад
    The Catastrophic Risks of AI — and a Safer Path | Yoshua Bengio | TED
    Опубликовано: 8 месяцев назад
  • Why the Economy Hasn't Crashed Yet 22 часа назад
    Why the Economy Hasn't Crashed Yet
    Опубликовано: 22 часа назад
  • 38.2 - Jesse Hoogland on Singular Learning Theory 1 год назад
    38.2 - Jesse Hoogland on Singular Learning Theory
    Опубликовано: 1 год назад
  • Lecture 10 • Out-of-Context Reasoning and Situational Awareness 8 месяцев назад
    Lecture 10 • Out-of-Context Reasoning and Situational Awareness
    Опубликовано: 8 месяцев назад
  • INDIE: Miasteczko bez białych turystów - co nas czeka? Lokalne życie bez filtrów w Vellore 4 часа назад
    INDIE: Miasteczko bez białych turystów - co nas czeka? Lokalne życie bez filtrów w Vellore
    Опубликовано: 4 часа назад
  • The AI Wake-Up Call Everyone Needs Right Now! 19 часов назад
    The AI Wake-Up Call Everyone Needs Right Now!
    Опубликовано: 19 часов назад

Контактный email для правообладателей: u2beadvert@gmail.com © 2017 - 2026

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5