У нас вы можете посмотреть бесплатно Honc Out #37 – LLM-as-Judge: How Models Score Evals или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
In this episode, we’re talking about LLM-as-judge — how language models can be used to score evals, where this approach works well, and where it gets tricky. We’ll start with how we handle evals and scoring in code, then shift to the role of LLMs as evaluators: how they compare to rule-based scoring, what kinds of bias or variance they introduce, and how to make their judgments more consistent and reliable. Topics we’ll cover: How evals and scoring work in code The benefits and pitfalls of LLM-as-judge Techniques to make model judgments more stable As always, join us live to ask questions in chat.