У нас вы можете посмотреть бесплатно LLM Evaluation: Getting Started или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
The standard for evaluating text is human labeling. However, human evaluation is often impractical at scale. Evaluating the performance of LLM applications is increasingly handled by using a separate evaluation LLM (LLM as a judge 👩🏾⚖️). LLM evaluation is a great starting point for understanding where an LLM application goes wrong. This demo covers running an LLM evaluation using Arize Phoenix, including evals with explanations for Q&A correctness and hallucinations. The Arize Phoenix LLM Evals open source library is designed for simple, fast, and accurate LLM-based evaluations. It leverages a variety of LLM evaluation metrics and tracing. 📓Notebook: https://colab.research.google.com/dri... 🔗 Other Links Learn more about how to run, benchmark LLM evals: https://arize.com/llm-evaluation/ Quickstart: LLM Evals: https://docs.arize.com/phoenix/evalua... Connect with Eric Xiao on LinkedIn: / ericxiao ⏱️ Timestamps 0:00 LLM evaluation intro 0:23 Example of traces of a product docs chatbot with with Q&A correctness and hallucination evaluation 3:07 Code walkthrough: evaluating a haiku writer app 4:22 Register tracer with Arize OTEL package, OpenAI instrumentor, get spans from Phoenix 6:00 Run the evaluation