У нас вы можете посмотреть бесплатно LLM Self-Report Tracks Internal Activations или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
In this AI Research Roundup episode, Alex discusses the paper: 'When Models Examine Themselves: Vocabulary-Activation Correspondence in Self-Referential Processing' This study investigates whether Large Language Models are actually reporting internal computation or just confabulating when prompted for self-examination. Using the new Pull Methodology, researchers discovered that self-referential vocabulary in models like Llama 3.1 and Qwen 2.5 directly tracks specific internal activation dynamics. For example, using loop vocabulary correlates with higher activation autocorrelation, while shimmer vocabulary tracks increased activation variability. This correspondence is unique to self-referential contexts and suggests that model self-reports can reliably reflect internal computational states. The findings reveal a specific activation direction for self-referential processing that is distinct from refusal or descriptive tasks. Paper URL: https://arxiv.org/pdf/2602.11358 #AI #MachineLearning #DeepLearning #LLM #Interpretability #ModelIntrospection #Llama3 #TransformerModels