У нас вы можете посмотреть бесплатно Тестирование моделей встраивания #6 — Как статистически оценить модели встраивания с помощью Pyth... или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
В этом видео мы подробно рассмотрим, как правильно проводить бенчмаркинг и оценку моделей встраивания для ваших приложений RAG (Retrieval-Augmented Generation) или поисковых приложений. Мы не будем ограничиваться простым анализом одного результата, а рассмотрим, почему статистическое тестирование так важно. Вы узнаете, как модель, которая выглядит лучше, может быть просто «везением», и как использовать статистические тесты, чтобы определить, действительно ли разница в производительности реальна и статистически значима. Сначала я подробно расскажу вам о трёх важнейших метриках, используемых при оценке поиска: среднем обратном ранге (MRR), полноте (Recall@K) и нормализованном дисконтированном кумулятивном приросте (NDCG@K). Я объясню математические и интуитивные принципы, лежащие в основе каждой из них, показав, как рассчитать их с нуля в Python. Затем я познакомлю вас с ranx — мощной библиотекой Python, которая автоматизирует весь этот процесс. Мы проведём рефакторинг нашего кода, написанного вручную, для использования ranx для создания «Qrel» (оценок релевантности запроса) и «run» (оценок модели). Вы увидите, как запустить полноценный бенчмарк, включая статистические тесты, такие как тест рандомизации Фишера и парный t-критерий, всего одной строкой кода. Наконец, мы проанализируем отчёт ranx, который предоставит нам подробную таблицу метрик и сравнение выигрышей, ничьих и проигрышей. Это поможет нам окончательно определить, какая модель встраивания лучше всего подходит для нашего конкретного набора данных, основываясь на статистически значимых данных. Репозиторий GitHub: https://github.com/ImadSaddik/Benchma... Документация Ranx: https://amenra.github.io/ranx/ Временные метки: (00:00) Введение (00:22) Два способа сравнения: вручную и с помощью библиотеки Ranx (01:21) Таблица результатов ручного бенчмарка (02:05) Зачем нужны статистические тесты (04:31) Объяснение метрик оценки (05:14) Метрика 1: Средний обратный ранг (MRR) (08:31) Метрика 2: Полнота при K (10:12) Метрика 3: Нормализованный дисконтированный кумулятивный прирост (NDCG при K) (12:45) Введение в статистические тесты (16:05) Нулевая гипотеза и p-значение Объяснение (17:46) Статистические тесты, доступные в RANX (19:27) Пример: Парный t-критерий (20:35) Пример: Рандомизация (критерий Фишера) (25:03) Разбор кода: Руководство (38:56) Разбор кода: Тест производительности RANX (53:53) Заключение