• ClipSaver
  • dtub.ru
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

Why AI evals are the hottest new skill for product builders | Hamel Husain & Shreya Shankar скачать в хорошем качестве

Why AI evals are the hottest new skill for product builders | Hamel Husain & Shreya Shankar 2 месяца назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Why AI evals are the hottest new skill for product builders | Hamel Husain & Shreya Shankar
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: Why AI evals are the hottest new skill for product builders | Hamel Husain & Shreya Shankar в качестве 4k

У нас вы можете посмотреть бесплатно Why AI evals are the hottest new skill for product builders | Hamel Husain & Shreya Shankar или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон Why AI evals are the hottest new skill for product builders | Hamel Husain & Shreya Shankar в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



Why AI evals are the hottest new skill for product builders | Hamel Husain & Shreya Shankar

Hamel Husain and Shreya Shankar teach the world’s most popular course on AI evals and have trained over 2,000 PMs and engineers (including many teams at OpenAI and Anthropic). In this conversation, they demystify the process of developing effective evals, walk through real examples, and share practical techniques that’ll help you improve your AI product. What you’ll learn: 1. WTF evals are 2. Why they’ve become the most important new skill for AI product builders 3. A step-by-step walkthrough of how to create an effective eval 4. A deep dive into error analysis, open coding, and axial coding 5. Code-based evals vs. LLM-as-judge 6. The most common pitfalls and how to avoid them 7. Practical tips for implementing evals with minimal time investment (30 minutes per week after initial setup) 8. Insight into the debate between “vibes” and systematic evals Brought to you by: Fin—The #1 AI agent for customer service: https://fin.ai/lenny Dscout—The UX platform to capture insights at every stage: from ideation to production: https://www.dscout.com/ Mercury—The art of simplified finances: https://mercury.com/ Transcript: https://www.lennysnewsletter.com/p/wh... My biggest takeaways (for paid newsletter subscribers): https://www.lennysnewsletter.com/i/17... Where to find Shreya Shankar • X: https://x.com/sh_reya • LinkedIn:   / shrshnk   • Website: https://www.sh-reya.com/ • Maven course: https://bit.ly/4myp27m Where to find Hamel Husain • X: https://x.com/HamelHusain • LinkedIn:   / hamelhusain   • Website: https://hamel.dev/ • Maven course: https://bit.ly/4myp27m Where to find Lenny: • Newsletter: https://www.lennysnewsletter.com • X:   / lennysan   • LinkedIn:   / lennyrachitsky   In this episode, we cover: (00:00) Introduction to Hamel and Shreya (04:57) What are evals? (09:56) Demo: Examining real traces from a property management AI assistant (16:51) Writing notes on errors (23:54) Why LLMs can’t replace humans in the initial error analysis (25:16) The concept of a “benevolent dictator” in the eval process (28:07) Theoretical saturation: when to stop (31:39) Using axial codes to help categorize and synthesize error notes (44:39) The results (46:06) Building an LLM-as-judge to evaluate specific failure modes (48:31) The difference between code-based evals and LLM-as-judge (52:10) Example: LLM-as-judge (54:45) Testing your LLM judge against human judgment (01:00:51) Why evals are the new PRDs for AI products (01:05:09) How many evals you actually need (01:07:41) What comes after evals (01:09:57) The great evals debate (1:15:15) Why dogfooding isn’t enough for most AI products (01:18:23) OpenAI’s Statsig acquisition (1:23:02) The Claude Code controversy and the importance of context (01:24:13) Common misconceptions around evals (1:22:28) Tips and tricks for implementing evals effectively (1:30:37) The time investment (1:33:38) Overview of their comprehensive evals course (1:37:57) Lightning round and final thoughts LLM Log Open Codes Analysis Prompt: Please analyze the following CSV file. There is a metadata field which has an nested field called z_note that contains open codes for analysis of LLM logs that we are conducting. Please extract all of the different open codes. From the _note field, propose 5-6 categories that we can create axial codes from. Referenced: • Building eval systems that improve your AI product: https://www.lennysnewsletter.com/p/bu... • Mercor: https://mercor.com/ • Brendan Foody on LinkedIn:   / brendan-foody-2995ab10b   • Nurture Boss: https://nurtureboss.io/ • Braintrust: https://www.braintrust.dev/ • Andrew Ng on X: https://x.com/andrewyng • Carrying Out Error Analysis:    • Carrying Out Error Analysis (C3W2L01)   • Julius AI: https://julius.ai/ • Brendan Foody on X—“evals are the new PRDs”: https://x.com/BrendanFoody/status/193... ...References continued at: https://www.lennysnewsletter.com/p/wh... Recommended books: • Pachinko: https://www.amazon.com/Pachinko-Natio... • Apple in China: The Capture of the World’s Greatest Company: https://www.amazon.com/Apple-China-Ca... • Machine Learning: https://www.amazon.com/Machine-Learni... • Artificial Intelligence: A Modern Approach: https://www.amazon.com/Artificial-Int... Production and marketing by https://penname.co/. For inquiries about sponsoring the podcast, email [email protected]. Lenny may be an investor in the companies discussed.

Comments
  • Не создавайте агентов, а развивайте навыки – Барри Чжан и Махеш Мураг, Anthropic 6 дней назад
    Не создавайте агентов, а развивайте навыки – Барри Чжан и Махеш Мураг, Anthropic
    Опубликовано: 6 дней назад
  • Оценки ИИ: наглядное объяснение за 50 минут (реальный пример) | Хамель Хусейн 2 месяца назад
    Оценки ИИ: наглядное объяснение за 50 минут (реальный пример) | Хамель Хусейн
    Опубликовано: 2 месяца назад
  • Finding hidden growth opportunities in your product | Albert Cheng (Duolingo, Grammarly, Chess.com) 2 месяца назад
    Finding hidden growth opportunities in your product | Albert Cheng (Duolingo, Grammarly, Chess.com)
    Опубликовано: 2 месяца назад
  • Why humans are AGI's biggest bottleneck (and what's coming in 2026) | Alexander Embiricos 12 часов назад
    Why humans are AGI's biggest bottleneck (and what's coming in 2026) | Alexander Embiricos
    Опубликовано: 12 часов назад
  • Roast&Improve AI | Встраиваю аналитику и LLM | ChatGPT | DeepSeek 5 дней назад
    Roast&Improve AI | Встраиваю аналитику и LLM | ChatGPT | DeepSeek
    Опубликовано: 5 дней назад
  • Почему спагетти-код лучше чистой архитектуры 10 дней назад
    Почему спагетти-код лучше чистой архитектуры
    Опубликовано: 10 дней назад
  • Ex-OpenAI Scientist WARNS: 4 месяца назад
    Ex-OpenAI Scientist WARNS: "You Have No Idea What's Coming"
    Опубликовано: 4 месяца назад
  • Claude Code: полный гайд по AI-кодингу (хаки, техники и секреты) 1 месяц назад
    Claude Code: полный гайд по AI-кодингу (хаки, техники и секреты)
    Опубликовано: 1 месяц назад
  • How this 100-person company became essential to Anthropic, Google, and frontier AI labs | Edwin Chen 7 дней назад
    How this 100-person company became essential to Anthropic, Google, and frontier AI labs | Edwin Chen
    Опубликовано: 7 дней назад
  • Краткий обзор новой версии n8n 2.0  🚀 3 дня назад
    Краткий обзор новой версии n8n 2.0 🚀
    Опубликовано: 3 дня назад
  • От идеи до выхода на 650 миллионов долларов: уроки создания стартапов в сфере ИИ 1 месяц назад
    От идеи до выхода на 650 миллионов долларов: уроки создания стартапов в сфере ИИ
    Опубликовано: 1 месяц назад
  • Inside Google's AI turnaround: AI Mode, AI Overviews, and vision for AI-powered search | Robby Stein 2 месяца назад
    Inside Google's AI turnaround: AI Mode, AI Overviews, and vision for AI-powered search | Robby Stein
    Опубликовано: 2 месяца назад
  • Я украл для вас набор продуктов ИИ от 1% лучших менеджеров по продуктам (полное руководство) 2 недели назад
    Я украл для вас набор продуктов ИИ от 1% лучших менеджеров по продуктам (полное руководство)
    Опубликовано: 2 недели назад
  • Firecrawl + MCP-сервер в n8n: Забудь про сложный парсинг и скрапинг! Идеальный AI агент 1 день назад
    Firecrawl + MCP-сервер в n8n: Забудь про сложный парсинг и скрапинг! Идеальный AI агент
    Опубликовано: 1 день назад
  • Product Discovery Meets AI Evals with Teresa Torres 3 недели назад
    Product Discovery Meets AI Evals with Teresa Torres
    Опубликовано: 3 недели назад
  • «Open AI — это пузырь»! Откровения из Кремниевой долины | Братья Либерманы 1 месяц назад
    «Open AI — это пузырь»! Откровения из Кремниевой долины | Братья Либерманы
    Опубликовано: 1 месяц назад
  • From managing people to managing AI: The leadership skills everyone needs now | Julie Zhuo 2 месяца назад
    From managing people to managing AI: The leadership skills everyone needs now | Julie Zhuo
    Опубликовано: 2 месяца назад
  • Трудные уроки создания эффективных программ для ИИ-агентов – Ник Паш, Клайн 2 дня назад
    Трудные уроки создания эффективных программ для ИИ-агентов – Ник Паш, Клайн
    Опубликовано: 2 дня назад
  • Обязательный навык для менеджеров проектов в области ИИ: оценка ИИ (и как ее настроить) 9 месяцев назад
    Обязательный навык для менеджеров проектов в области ИИ: оценка ИИ (и как ее настроить)
    Опубликовано: 9 месяцев назад
  • From Noob to Automated Evals In A Week (as a PM) w/Teresa Torres 3 месяца назад
    From Noob to Automated Evals In A Week (as a PM) w/Teresa Torres
    Опубликовано: 3 месяца назад

Контактный email для правообладателей: [email protected] © 2017 - 2025

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5