У нас вы можете посмотреть бесплатно Jak działają benchmarki modeli językowych AI? Przegląd: MMLU, GPQA, SUPERGLUE. или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Odkrywamy prawdę o benchmarkach AI, których firmy używają do marketingu swoich modeli! Świat dużych modeli językowych (LLM) zmienia się z zawrotną prędkością - co kilka dni pojawiają się nowe modele reklamowane jako "lepsze". Ale co to właściwie znaczy? Z tego odcinka dowiesz się: Czym są benchmarki GLUE i SuperGLUE i jakie zadania zawierają Jak działa MMLU (Massive Multitask Language Understanding) sprawdzający wiedzę ogólną Co testuje trudny benchmark GPQA i dlaczego nawet najlepsze modele osiągają tylko 35% skuteczności Jak benchmarki TAU-bench sprawdzają użyteczność modeli w biznesie Co bada SWE Bench Verified w kontekście programowania Jak polski Bielik radzi sobie w europejskim benchmarku EuroEval (dawniej ScandEval) Specjalny gość: Krzysztof Wróbel z zespołu Bielika i Enelpol opowiada o benchmarkach i planach rozwoju polskiego modelu AI! 💡 Po tym filmie będziesz rozumiał testy AI lepiej niż 90% osób w branży! 🔔 Zapisz się do mojego newslettera, żeby nie przegapić zapowiadanego filmu o połączeniu Claude Sonnet 3.7 z edytorem Cursor AI: https://ctowiec.pl/newsletter #AI #LLM #benchmarkAI #modelejezykowe #sztucznainteligencja #Bielik #MMLU #GPQA #EuroEval #PolskiAI 2:35 Benchmark GLUE 3:04 Benchmark SUPERGLUE 5:35 Benchmark MMLU 7:01 Benchmark GPQA 8:19 TAU-Bench 9:59 SWE-Bench Verified 11:25 Bielik dołączył do ScandEval 11:45 Co to za benchmark ScanEval? (Krzysztof Wróbel) 12:50 Które miejsce zajmuje Bielik w Euro LLM? (Krzysztof Wróbel) 14:45 Czy planujecie zgłaszać Bielika do innych benchmarków? (Krzysztof Wróbel)