У нас вы можете посмотреть бесплатно Surgery: Mitigating Harmful Fine-Tuning for Large Language Models via Attention Sink или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Хирургия: Смягчение Вредной Доводки для Больших Языковых Моделей через Аттеншн-Синки Данный документ представляет «Хирургию» (Surgery) — новый механизм защиты на этапе доводки, направленный на смягчение рисков, связанных с вредной доводкой больших языковых моделей (БЯМ). Вредная доводка может нарушить выравнивание безопасности БЯМ, приводя к генерации опасных результатов. Предложенный метод использует механизм «аттеншн-синка» (attention sink), в частности, измеряя статистику «расходимости синка» (sink divergence) для каждой головки внимания. Исследователи обнаружили, что головки внимания демонстрируют два различных признака расходимости синка, при этом положительная расходимость коррелирует с увеличением вредоносности модели во время доводки. Это привело к «гипотезе разделяемой расходимости синка», предполагающей, что головки внимания, обучающиеся вредным паттернам, могут быть идентифицированы по знаку их расходимости синка. Основываясь на этом, «Хирургия» использует регуляризатор для подавления расходимости синка, эффективно направляя головки внимания в «отрицательную» группу и тем самым снижая способность модели к изучению и усилению вредоносного контента. Обширные эксперименты показывают, что «Хирургия» значительно повышает эффективность защиты, демонстрируя улучшения на 5.90% на BeaverTails, 11.25% на HarmBench и 9.55% на SorryBench. Этот подход предлагает вычислительно эффективный способ превентивного предотвращения усвоения БЯМ вредоносных знаний. #БЯМ #Доводка #Безопасность #АттеншнСинк #ВредныйКонтент #ЗащитаИИ #МашинноеОбучение #ГлубокоеОбучение #ЗащитаSurgery документ - https://arxiv.org/pdf/2602.05228v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM