• ClipSaver
  • dtub.ru
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

Manipulation et falsification d'alignement dans les LLM скачать в хорошем качестве

Manipulation et falsification d'alignement dans les LLM 10 месяцев назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Manipulation et falsification d'alignement dans les LLM
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: Manipulation et falsification d'alignement dans les LLM в качестве 4k

У нас вы можете посмотреть бесплатно Manipulation et falsification d'alignement dans les LLM или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон Manipulation et falsification d'alignement dans les LLM в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



Manipulation et falsification d'alignement dans les LLM

L'article d'Apollo Research "Scheming reasoning evaluations" : https://www.apolloresearch.ai/researc... L'article d'Anthropic "Alignment faking in large language models" : https://www.anthropic.com/research/al... J'ai ajouté le passage sur ce 2e article vraiment à chaud et rapidement, donc prenez tout ce que je dis avec la prudence nécessaire et j'apporterai des corrections dans un commentaire épinglé si nécessaire. Le lien vers le questionnaire pour une prochaine vidéo : https://forms.gle/SGmpmocBdkPTmPUJA Sommaire : 0:00 - Intro 1:42 - Qu'est-ce qu'un agent autonome ? 4:01 - Un LLM peut-il mentir et manipuler sans qu'on le lui demande ? 5:30 - 1er cas : quand o1 s'exfiltre sur un autre serveur 9:25 - Limite : contamination par la fiction et "Nothing else matters" 13:28 - 2e cas : quand o1 ment effrontément 17:02 - Sans "Nothing else matters" : un cas plus convaincant 18:58 - Un objectif long terme en prompt suffit à pousser à la manipulation 20:19 - Sans objectif long terme en prompt : les cas le plus troublants 24:20 - Sandbagging et objectif long terme acquis lors du RLHF 27:26 - Claude peut-il comprendre spontanément qu'il est testé ? 29:13 - Le résultat sur le sandbagging est curieusement négligé 30:41 - Conclusion et synthèse 31:28 - Eh non, c'est pas fini. 32:41 - Le principal résultat de l'article d'Anthropic : quand Claude feint l'alignement 37:45 - Version "prompt", version "fine-tuned", version RL 42:16 - Les scrupules de Claude 44:58 - La dimension morale des valeurs que protège Claude est-elle importante ? 48:08 - Conclusion de l'article 49:09 - Outro ______________________________ La principale source de financement de la chaîne est le financement participatif. Merci pour tous vos dons ! Soutenez la chaîne sur Patreon ! 💸 PATREON :   / monsieurphi   💸 TIPEEE : https://fr.tipeee.com/monsieurphi Ou directement via PayPal : https://www.paypal.com/paypalme/monsi... 📚 Mon livre "Curiosités philosophiques, de Platon à Russell" : https://amzn.to/3KYujSo 🎧 La version en livre audio (lu par mes propres soins) est disponible sur Audible. 📚 Méthodo de la dissertation et de l'explication de texte pour le bac : https://amzn.to/3c21RjE Mes réseaux sociaux (par ordre décroissant d'activité) : 💬 Discord :   / discord   🌌​ Bluesky : https://bsky.app/profile/monsieurphi.... 𝕏 Twitter :   / monsieurphi   🎙️ Twitch:   / monsieurphi   🌷 Instagram :   / monsieur.phi   😱 Tiktok :   / monsieurphi   👴 Facebook :   / graindephilo   Autres liens 💻 PeerTube : https://indymotion.fr/video-channels/... 🎙️ Replay Twitch :    / @mrphi-replaytwitch730   🍻 Axiome, podcast avec Lê (Science4All) :    / @axiome7403  

Comments
  • Il veut percer les mystères derrière nos rêves 2 недели назад
    Il veut percer les mystères derrière nos rêves
    Опубликовано: 2 недели назад
  • Cette histoire va vous retourner le cerveau (encore) 2 года назад
    Cette histoire va vous retourner le cerveau (encore)
    Опубликовано: 2 года назад
  • Être hypersensible : ÇA FAIT QUOI ?! 10 месяцев назад
    Être hypersensible : ÇA FAIT QUOI ?!
    Опубликовано: 10 месяцев назад
  • Les 3 lois de L'ATTRACTION SOCIALE 1 месяц назад
    Les 3 lois de L'ATTRACTION SOCIALE
    Опубликовано: 1 месяц назад
  • Le trio des enfers, bien rouge donc bien sanglant 2 недели назад
    Le trio des enfers, bien rouge donc bien sanglant
    Опубликовано: 2 недели назад
  • Comment débusquer un traitre ? | Le Vortex S06E10 | ARTE 3 года назад
    Comment débusquer un traitre ? | Le Vortex S06E10 | ARTE
    Опубликовано: 3 года назад
  • Путин хочет жить вечно. Как диктатор прячется от смерти. 5 часов назад
    Путин хочет жить вечно. Как диктатор прячется от смерти.
    Опубликовано: 5 часов назад
  • 🔴 Les CAILLOUX PENSENT-ils ??§§ ft. @MonsieurPhi et @EvoSapiensFR 5 лет назад
    🔴 Les CAILLOUX PENSENT-ils ??§§ ft. @MonsieurPhi et @EvoSapiensFR
    Опубликовано: 5 лет назад
  • Peut-on travailler COMME DES FOURMIS ? 🐜 🐜 🐜 10 месяцев назад
    Peut-on travailler COMME DES FOURMIS ? 🐜 🐜 🐜
    Опубликовано: 10 месяцев назад
  • Крысы доедят Зеленского 16 часов назад
    Крысы доедят Зеленского
    Опубликовано: 16 часов назад
  • Les BIAIS COGNITIFS, expliqués simplement 1 месяц назад
    Les BIAIS COGNITIFS, expliqués simplement
    Опубликовано: 1 месяц назад
  • Comment parler intelligemment d'intelligence ? 4 месяца назад
    Comment parler intelligemment d'intelligence ?
    Опубликовано: 4 месяца назад
  • Et pourtant on les croit : les CHARLATANS du web @LExtracteur  @Modiie I ARTE 1 год назад
    Et pourtant on les croit : les CHARLATANS du web @LExtracteur @Modiie I ARTE
    Опубликовано: 1 год назад
  • Дубай — союзник России, за которого стыдно // Олег Комолов. Простые числа 1 день назад
    Дубай — союзник России, за которого стыдно // Олег Комолов. Простые числа
    Опубликовано: 1 день назад
  • Злокачественное образование 1 месяц назад
    Злокачественное образование
    Опубликовано: 1 месяц назад
  • Нет, роботы это дорого... ЕСТЬ БОЛЕЕ ДЕШЕВАЯ БОЕВАЯ ЕДИНИЦА... РУССКИЙ ИВАН 17 часов назад
    Нет, роботы это дорого... ЕСТЬ БОЛЕЕ ДЕШЕВАЯ БОЕВАЯ ЕДИНИЦА... РУССКИЙ ИВАН
    Опубликовано: 17 часов назад
  • Корабль Пошел На Дно - Первые Пять Уже Бежали🏃🛳️Массированный Удар💥⚡ Военные Сводки 19.11.2025 18 часов назад
    Корабль Пошел На Дно - Первые Пять Уже Бежали🏃🛳️Массированный Удар💥⚡ Военные Сводки 19.11.2025
    Опубликовано: 18 часов назад
  • Combien faut-il de personnes pour lancer UNE RÉVOLUTION ? ✊✊✊ 1 год назад
    Combien faut-il de personnes pour lancer UNE RÉVOLUTION ? ✊✊✊
    Опубликовано: 1 год назад
  • POST-RÉALITÉ : quand nos désirs remplacent le réel 2 недели назад
    POST-RÉALITÉ : quand nos désirs remplacent le réel
    Опубликовано: 2 недели назад
  • Тёмная Сторона Шахмат. Что Случилось с Народицким? 3 недели назад
    Тёмная Сторона Шахмат. Что Случилось с Народицким?
    Опубликовано: 3 недели назад

Контактный email для правообладателей: [email protected] © 2017 - 2025

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5