• ClipSaver
  • dtub.ru
ClipSaver
Русские видео
  • Смешные видео
  • Приколы
  • Обзоры
  • Новости
  • Тесты
  • Спорт
  • Любовь
  • Музыка
  • Разное
Сейчас в тренде
  • Фейгин лайф
  • Три кота
  • Самвел адамян
  • А4 ютуб
  • скачать бит
  • гитара с нуля
Иностранные видео
  • Funny Babies
  • Funny Sports
  • Funny Animals
  • Funny Pranks
  • Funny Magic
  • Funny Vines
  • Funny Virals
  • Funny K-Pop

Everything you need to know about LLM benchmarks. (and why they're flawed), OpenAI's Healthbench скачать в хорошем качестве

Everything you need to know about LLM benchmarks. (and why they're flawed), OpenAI's Healthbench 5 месяцев назад

скачать видео

скачать mp3

скачать mp4

поделиться

телефон с камерой

телефон с видео

бесплатно

загрузить,

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Everything you need to know about LLM benchmarks. (and why they're flawed), OpenAI's Healthbench
  • Поделиться ВК
  • Поделиться в ОК
  •  
  •  


Скачать видео с ютуб по ссылке или смотреть без блокировок на сайте: Everything you need to know about LLM benchmarks. (and why they're flawed), OpenAI's Healthbench в качестве 4k

У нас вы можете посмотреть бесплатно Everything you need to know about LLM benchmarks. (and why they're flawed), OpenAI's Healthbench или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:

  • Информация по загрузке:

Скачать mp3 с ютуба отдельным файлом. Бесплатный рингтон Everything you need to know about LLM benchmarks. (and why they're flawed), OpenAI's Healthbench в формате MP3:


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса ClipSaver.ru



Everything you need to know about LLM benchmarks. (and why they're flawed), OpenAI's Healthbench

Whenever there was AI, there were benchmarks- from the turing test, to society-changing benchmarks like MNIST and ImageNet to modern problems like the ARC prize, benchmarks served a vital purpose to measure the performance of AI models. But something has shifted in modern times, in the LLM era have benchmarks lost their utility, becoming mere advertisement for big tech? Even seemingly more sophisticated benchmarks like LM Arena can be gamed by tech giants. We also deep dive into healthcare benchmarks like OpenAI's Healthbench (deeply problematic) and microsofts AI DXO orchestrator agent for diagnosis. Where is this all going? How do we make the perfect benchmark? Or is the real work to be done afterwards in the real world? 👋 Hey! If you are enjoying our conversations, reach out, share your thoughts and journey with us. Don't forget to subscribe whilst you're here :) Timestamps 00:00 intro - The OG benchmarks - Turing test, MNIST , ImageNET 06:40 are large language models benchmarks similar to humans taking tests? 10:05 Are we testing model capability vs production ready? 12:00 LLM era - data contamination 15:30 LM arena - The leaderboard illusion paper- how big tech games benchmarks 28:35 Goodhart's law- When a measure becomes a target, it ceases to be a good measure 32:05 some good benchmarks - games- Pokemon , ARC prize, minecraft 34:35 Medical benchmarks - OpenAI's healthbench has some big problems 46:50 microsoft AI-DXO orchestrator for case reports 👨🏻‍⚕️Doc - Dr. Joshua Au Yeung -   / dr-joshua-auyeung   🤖Dev - Zeljko Kraljevic   / zeljkokr   References Rethinking benchmarks , data contamination paper - https://arxiv.org/pdf/2311.04850 leaderboard illusion - https://arxiv.org/pdf/2504.20879 openAI's healthbench subanalysis   / a-closer-look-at-openais-new-healthbench-e...   microsoft - towards sequential ddx https://arxiv.org/pdf/2506.22405 YT -    / @devanddoc   Spotify - https://podcasters.spotify.com/pod/sh... Apple- https://podcasts.apple.com/gb/podcast... Substack- https://aiforhealthcare.substack.com/ For enquiries - 📧Devanddoc@gmail.com 🎞️ Editor- Dragan Kraljević   / dragan_kraljevic   🎨Brand design and art direction - Ana Grigorovici https://www.behance.net/anagrigorovic...

Comments
  • The Age of AI agents in healthcare (Live Podcast at HETT 2025) 3 месяца назад
    The Age of AI agents in healthcare (Live Podcast at HETT 2025)
    Опубликовано: 3 месяца назад
  • Дарио Амодеи — «Мы близки к концу экспоненты» 3 дня назад
    Дарио Амодеи — «Мы близки к концу экспоненты»
    Опубликовано: 3 дня назад
  • Is it still worth doing a PhD in 2025? (Computer Science / Machine Learning) 11 месяцев назад
    Is it still worth doing a PhD in 2025? (Computer Science / Machine Learning)
    Опубликовано: 11 месяцев назад
  • Significantly advancing LLMs with RAG (Google's Gemini 2.0, Deep Research, notebookLM) 1 год назад
    Significantly advancing LLMs with RAG (Google's Gemini 2.0, Deep Research, notebookLM)
    Опубликовано: 1 год назад
  • LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры 1 год назад
    LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры
    Опубликовано: 1 год назад
  • Сможет ли новый ИИ от Google решить все проблемы? | Титаны и новаторы 6 дней назад
    Сможет ли новый ИИ от Google решить все проблемы? | Титаны и новаторы
    Опубликовано: 6 дней назад
  • Илон Маск (свежее): xAI и SpaceX, прогресс ИИ, Grok, лунная база, другое 4 дня назад
    Илон Маск (свежее): xAI и SpaceX, прогресс ИИ, Grok, лунная база, другое
    Опубликовано: 4 дня назад
  • Я попробовал OpenAI Prism для проведения реальных математических исследований. 2 недели назад
    Я попробовал OpenAI Prism для проведения реальных математических исследований.
    Опубликовано: 2 недели назад
  • AlphaFold - The Most Useful Thing AI Has Ever Done 1 год назад
    AlphaFold - The Most Useful Thing AI Has Ever Done
    Опубликовано: 1 год назад
  • 400 часов вайб-кодинга: всё, что нужно знать | Claude, GPT, агенты Трансляция закончилась 2 недели назад
    400 часов вайб-кодинга: всё, что нужно знать | Claude, GPT, агенты
    Опубликовано: Трансляция закончилась 2 недели назад
  • Journalist Karen Hao on Sam Altman, OpenAI & the 7 месяцев назад
    Journalist Karen Hao on Sam Altman, OpenAI & the "Quasi-Religious" Push for Artificial Intelligence
    Опубликовано: 7 месяцев назад
  • Интервью с создателем OpenClaw - главный ИИ-феномен 2026 6 дней назад
    Интервью с создателем OpenClaw - главный ИИ-феномен 2026
    Опубликовано: 6 дней назад
  • RAG vs Fine-Tuning vs Prompt Engineering: Optimizing AI Models 10 месяцев назад
    RAG vs Fine-Tuning vs Prompt Engineering: Optimizing AI Models
    Опубликовано: 10 месяцев назад
  • Andrej Karpathy: Software Is Changing (Again) 7 месяцев назад
    Andrej Karpathy: Software Is Changing (Again)
    Опубликовано: 7 месяцев назад
  • Традиционное машинное обучение мертво — суровая правда 😔 13 дней назад
    Традиционное машинное обучение мертво — суровая правда 😔
    Опубликовано: 13 дней назад
  • Exploring Claude Sonnet 3.7 for healthcare 11 месяцев назад
    Exploring Claude Sonnet 3.7 for healthcare
    Опубликовано: 11 месяцев назад
  • Лучший документальный фильм про создание ИИ 1 месяц назад
    Лучший документальный фильм про создание ИИ
    Опубликовано: 1 месяц назад
  • Aligning AI models for healthcare | Reinforcement Learning from Human Feedback (RLHF) 2 года назад
    Aligning AI models for healthcare | Reinforcement Learning from Human Feedback (RLHF)
    Опубликовано: 2 года назад
  • Explaining Explainable AI (for healthcare) 1 год назад
    Explaining Explainable AI (for healthcare)
    Опубликовано: 1 год назад
  • Vibe Coding Is The WORST IDEA Of 2025 6 месяцев назад
    Vibe Coding Is The WORST IDEA Of 2025
    Опубликовано: 6 месяцев назад

Контактный email для правообладателей: u2beadvert@gmail.com © 2017 - 2026

Отказ от ответственности - Disclaimer Правообладателям - DMCA Условия использования сайта - TOS



Карта сайта 1 Карта сайта 2 Карта сайта 3 Карта сайта 4 Карта сайта 5