У нас вы можете посмотреть бесплатно Why your evals are probably off? или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Here is my presentation of several research results that we have obtained recently at Pleias and THWS. What the HellaSwag? On the Validity of Common-Sense Reasoning Benchmarks https://arxiv.org/abs/2504.07825 Vygotsky Distance: Measure for Benchmark Task Similarity https://aclanthology.org/2024.lrec-ma... LLMs Simulate Big5 Personality Traits: Further Evidence https://aclanthology.org/2024.persona...