У нас вы можете посмотреть бесплатно Почему ваша ML-модель может оказаться хуже, чем ничего? или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
В этом докладе мы погружаемся в проблему, известную как "дилемма переводчика", возникающую на стыке Data Science и бизнеса. Часто то, как бизнес измеряет успех (ориентируясь на деньги), и то, как успех измеряется в машинном обучении (фокусируясь на правильности предсказаний), являются "двумя совершенно разными темами" и "двумя разными мирами". Почему это критически важно? Если не понять этот момент правильно, построить какую-либо адекватную модель крайне сложно, и мы не будем знать, как она себя ведет по-настоящему. Ошибки в расчете метрик могут привести к двум серьезным проблемам: 1. Завышенная уверенность может спровоцировать принятие решений, ведущих к потере больших сумм, и даже к худшим результатам, чем если бы ML-модель не использовалась вовсе. 2. Мы можем отказаться от потенциально рабочей модели, что приведет к "потерянным возможностям" для бизнеса. В докладе мы подробно разбираем, как связаны бизнес-метрики (такие как Revenue — выручка, Customer Lifetime Value, процент конверсии, Churn Rate — процент оттока, и Return on Investment) с метриками Data Science (например, Precision и Recall), которые объясняют качество предсказаний. Главные правила и ошибки тестирования моделей: Мы рассматриваем распространенный проект — предсказание оттока клиентов — и демонстрируем концептуальные проблемы, связанные с влиянием на результат: • Тестирование и использование должны быть идентичны. Модель должна тестироваться точно так, как она будет использоваться. Это фундаментальное требование. • Когда модель предсказывает высокий риск оттока (или "горящий домик"), и мы тут же предпринимаем действие (скидки, удержание), мы изменяем поведение клиента. Из-за этого мы не можем доверять исходу и посчитать реальное качество модели. • Для корректной оценки необходимо рандомно сэмплить небольшой процент предсказаний (например, 0.5%) на каждую дату запуска и "ложить" их в лок (изолятор), где на них не оказывается никакого воздействия. Эта скользящая выборка позволяет получить объемную картину и учесть временную компоненту и сезонность, которые постоянно меняются. • Крайне важно не приписывать себе "очки за домики, которым мы предсказали, когда они уже горели". Использование данных, где событие уже произошло (например, клиент уже неактивен), приводит к искусственно завышенным метрикам (например, 80% Recall). Такие предсказания являются лишь констатацией факта, не приносящей пользы бизнесу. Узнайте, как правильно строить фундамент для ваших ML-проектов, чтобы они приносили реальную выгоду, а не убытки!