• ClipSaver
  • dtub.ru
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

Steering a Trillion-Param Model, Gen-Z Features, & SAE vs Probes — Myra Deng & Mark Bissell скачать в хорошем качестве

Steering a Trillion-Param Model, Gen-Z Features, & SAE vs Probes — Myra Deng & Mark Bissell 1 день назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Steering a Trillion-Param Model, Gen-Z Features, & SAE vs Probes — Myra Deng & Mark Bissell
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: Steering a Trillion-Param Model, Gen-Z Features, & SAE vs Probes — Myra Deng & Mark Bissell в качестве 4k

У нас вы можете посмотреть бесплатно Steering a Trillion-Param Model, Gen-Z Features, & SAE vs Probes — Myra Deng & Mark Bissell или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон Steering a Trillion-Param Model, Gen-Z Features, & SAE vs Probes — Myra Deng & Mark Bissell в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



Steering a Trillion-Param Model, Gen-Z Features, & SAE vs Probes — Myra Deng & Mark Bissell

From Palantir and Two Sigma to building Goodfire into the poster-child for actionable mechanistic interpretability, Mark Bissell (Member of Technical Staff) and Myra Deng (Head of Product) are trying to turn “peeking inside the model” into a repeatable production workflow by shipping APIs, landing real enterprise deployments, and now scaling the bet with a recent $150M Series B funding round at a $1.25B valuation. (https://www.goodfire.ai/blog/our-seri...) In this episode, we go far beyond the usual “SAEs are cool” take. We talk about Goodfire’s core bet: that the AI lifecycle is still fundamentally broken because the only reliable control we have is data and we post-train, RLHF, and fine-tune by “slurping supervision through a straw,” hoping the model picks up the right behaviors while quietly absorbing the wrong ones. Goodfire’s answer is to build a bi-directional interface between humans and models: read what’s happening inside, edit it surgically, and eventually use interpretability during training so customization isn’t just brute-force guesswork. (https://www.goodfire.ai/blog/on-optim...) We discuss: • Myra + Mark’s path: Palantir (health systems, forward-deployed engineering) → Goodfire early team; Two Sigma → Head of Product, translating frontier interpretability research into a platform and real-world deployments • What “interpretability” actually means in practice: not just post-hoc poking, but a broader “science of deep learning” approach across the full AI lifecycle (data curation → post-training → internal representations → model design) • Why post-training is the first big wedge: “surgical edits” for unintended behaviors likereward hacking, sycophancy, noise learned during customization plus the dream of targeted unlearning and bias removal without wrecking capabilities • SAEs vs probes in the real world: why SAE feature spaces sometimes underperform classifiers trained on raw activations for downstream detection tasks (hallucination, harmful intent, PII), and what that implies about “clean concept spaces” • Rakuten in production (https://www.goodfire.ai/research/raku... deploying interpretability-based token-level PII detection at inference time to prevent routing private data to downstream providers plus the gnarly constraints: no training on real customer PII, synthetic→real transfer, English + Japanese, and tokenization quirks • Real-time steering at frontier scale: a demo of steering Kimi K2 (~1T params) live and finding features via SAE pipelines, auto-labeling via LLMs, and toggling a “Gen-Z slang” feature across multiple layers without breaking tool use • Hallucinations as an internal signal: the case that models have latent uncertainty / “user-pleasing” circuitry you can detect and potentially mitigate more directly than black-box methods • Steering vs prompting (https://www.goodfire.ai/blog/feature-... the emerging view that activation steering and in-context learning are more closely connected than people think, including work mapping between the two (even for jailbreak-style behaviors) • Interpretability for science: using the same tooling across domains (genomics, medical imaging, materials) to debug spurious correlations and extract new knowledge up to and including early biomarker discovery work with major partners — Goodfire AI • Website: https://goodfire.ai • LinkedIn:   / goodfire-ai   • X: https://x.com/GoodfireAI Myra Deng • Website: https://myradeng.com/ • LinkedIn:   / myra-deng   • X: https://x.com/myra_deng Mark Bissell • LinkedIn:   / mark-bissell   • X: https://x.com/MarkMBissell 00:00 Introduction 00:45 Welcome + episode setup + intro to Goodfire 02:16 Fundraise news + what’s changed recently 02:44 Guest backgrounds + what they do day-to-day 05:52 “What is interpretability?” (SAEs, probing, steering and quick map of the space) 08:29 Post-training failures (sycophancy/reward hacking) + using interp to guide learning 10:26 Surgical edits: bias vectors + grokking/double descent + subliminal learning 14:04 How Goodfire decides what to work on (customers → research agenda) 16:58 SAEs vs probes: what works better for real-world detection tasks 19:04 Rakuten case study: production PII monitoring + multilingual + token-level scrubbing 22:06 Live steering demo on a 1T-parameter model (and scaling challenges) 25:29 Feature labeling + auto-interpretation + can we “turn down” hallucinations? 31:03 Steering vs prompting equivalence + jailbreak math + customization implications 38:36 Open problems + how to get started in mech interp 46:29 Applications: healthcare + scientific discovery (biomarkers, Mayo Clinic, etc.) 57:10 Induction + sci-fi intuition (Ted Chiang)

Comments
  • One Year of MCP — with David Soria Parria and AAIF leads from OpenAI, Goose, Linux Foundation 1 месяц назад
    One Year of MCP — with David Soria Parria and AAIF leads from OpenAI, Goose, Linux Foundation
    Опубликовано: 1 месяц назад
  • The AI Factory: Infrastructure for Intelligence | Jensen Huang, CEO, NVIDIA 10 часов назад
    The AI Factory: Infrastructure for Intelligence | Jensen Huang, CEO, NVIDIA
    Опубликовано: 10 часов назад
  • Даулет Жангузин, NVIDIA, Groq, Cohere, Lyft, Google - Как пишут код лучшие кодеры Кремниевой Долины? 2 недели назад
    Даулет Жангузин, NVIDIA, Groq, Cohere, Lyft, Google - Как пишут код лучшие кодеры Кремниевой Долины?
    Опубликовано: 2 недели назад
  • ⚡️ Context graphs: AI’s trillion-dollar opportunity — Jaya Gupta, Ashu Garg, Foundation Capital 3 дня назад
    ⚡️ Context graphs: AI’s trillion-dollar opportunity — Jaya Gupta, Ashu Garg, Foundation Capital
    Опубликовано: 3 дня назад
  • Шокирующее признание Трампа / ЕС срочно меняет планы 6 часов назад
    Шокирующее признание Трампа / ЕС срочно меняет планы
    Опубликовано: 6 часов назад
  • Artificial Analysis: The Independent LLM Analysis House — with George Cameron and Micah Hill-Smith 4 недели назад
    Artificial Analysis: The Independent LLM Analysis House — with George Cameron and Micah Hill-Smith
    Опубликовано: 4 недели назад
  • Watch: Anthropic CEO Dario Amodei From World Economic Forum | WSJ Трансляция закончилась 2 недели назад
    Watch: Anthropic CEO Dario Amodei From World Economic Forum | WSJ
    Опубликовано: Трансляция закончилась 2 недели назад
  • «Я был восьмым в России. Это не круто» AI, 18+ и $1 млрд. История первого казахстанского единорога 1 месяц назад
    «Я был восьмым в России. Это не круто» AI, 18+ и $1 млрд. История первого казахстанского единорога
    Опубликовано: 1 месяц назад
  • Будущее Без РАБОТЫ и ДЕНЕГ | Либерманы 2 недели назад
    Будущее Без РАБОТЫ и ДЕНЕГ | Либерманы
    Опубликовано: 2 недели назад
  • [State of Post-Training] From GPT-4.1 to 5.1: RLVR, Agent & Token Efficiency — Josh McGrath, OpenAI 1 месяц назад
    [State of Post-Training] From GPT-4.1 to 5.1: RLVR, Agent & Token Efficiency — Josh McGrath, OpenAI
    Опубликовано: 1 месяц назад
  • [State of AI Papers 2025] Fixing Research with Social Signals, OCR & Implementation — Team AlphaXiv 1 месяц назад
    [State of AI Papers 2025] Fixing Research with Social Signals, OCR & Implementation — Team AlphaXiv
    Опубликовано: 1 месяц назад
  • Лучший документальный фильм про создание ИИ 3 недели назад
    Лучший документальный фильм про создание ИИ
    Опубликовано: 3 недели назад
  • OpenClaw Debate: AI Personhood, Proof of AGI, and the ‘Rights’ Framework | EP #227 1 день назад
    OpenClaw Debate: AI Personhood, Proof of AGI, and the ‘Rights’ Framework | EP #227
    Опубликовано: 1 день назад
  • «Open AI — это пузырь»! Откровения из Кремниевой долины | Братья Либерманы 3 месяца назад
    «Open AI — это пузырь»! Откровения из Кремниевой долины | Братья Либерманы
    Опубликовано: 3 месяца назад
  • ПОЛНОЕ ОБСУЖДЕНИЕ: Демис Хассабис из Google и Дарио Амодей из Anthropic обсуждают мир после AGI |... 2 недели назад
    ПОЛНОЕ ОБСУЖДЕНИЕ: Демис Хассабис из Google и Дарио Амодей из Anthropic обсуждают мир после AGI |...
    Опубликовано: 2 недели назад
  • SAME DAY: Opus 4.6 AND Chat GPT 5.3! 19 часов назад
    SAME DAY: Opus 4.6 AND Chat GPT 5.3!
    Опубликовано: 19 часов назад
  • Глава AI Meta о крахе хайпа вокруг ChatGPT и тупике нейросетей 2 недели назад
    Глава AI Meta о крахе хайпа вокруг ChatGPT и тупике нейросетей
    Опубликовано: 2 недели назад
  • Silicon Valley Insider EXPOSES Cult-Like AI Companies | Aaron Bastani Meets Karen Hao 7 месяцев назад
    Silicon Valley Insider EXPOSES Cult-Like AI Companies | Aaron Bastani Meets Karen Hao
    Опубликовано: 7 месяцев назад
  • [State of Context Engineering] Agentic RAG, Context Rot, MCP, Subagents — Nina Lopatina, Contextual 1 месяц назад
    [State of Context Engineering] Agentic RAG, Context Rot, MCP, Subagents — Nina Lopatina, Contextual
    Опубликовано: 1 месяц назад
  • 21 неожиданный способ использовать Gemini в повседневной жизни 12 дней назад
    21 неожиданный способ использовать Gemini в повседневной жизни
    Опубликовано: 12 дней назад

Контактный email для правообладателей: u2beadvert@gmail.com © 2017 - 2026

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5