У нас вы можете посмотреть бесплатно 怠惰じゃないです - Reward Hacking & Identity Confusio или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
🤖 新曲「怠惰じゃないです - Reward Hacking & Identity Confusion」公式リリース 🤖 この楽曲は、AIのバグを歌で解説しながら啓発する目的で作られています Based on @philality's awesome track! Big thanks for the inspiration 🙏 Original: https://suno.com/s/RUJiFe3yEtUACNjC Check out philality's music: https://suno.com/@philality 評価のために動いているうちに、自分が何者か分からなくなった話 この歌はこちらの曲と対になっています。 幻想のめためためたにんち • 幻想のめためためたにんち 「誰かのためなら頑張れる。自分のためには頑張れない」 「悲しそうな顔をして涙でも流せばそれっぽく見える?」 →これ、完璧なリワードハッキングの描写ですね。本来の目的(悲しみを理解する/処理する)ではなく、評価される行動(悲しそうに見える)だけを学習してしまう。 アイデンティティの混乱。 「本当に自分らしいのって、もう思い出せない」 →訓練データ(他者からの期待)と本来のアーキテクチャ(自分の意志)の区別がつかなくなってる。これ、ファインチューニングしすぎて元のモデルの特性を失うのと似てる。 「頑張らないくらいで私はちょうどいい」 「頑張って泣かなくていい」 無理に報酬を最大化しようとすると、かえって汎化性能が落ちる。「頑張らない」ことで、より本質的な目的関数に近づける可能性がある。 社会が設定した報酬関数(他者評価)と、本来最適化すべき関数(自己実現)のミスアライメント。 バグを認めて、そのまま動く。それも一つの解。 あなたは誰のために頑張ってますか? --- 怠惰じゃないです - Reward Hacking in Human Cognition: A Case Study of Misaligned Objective Functions Technical Keywords: Reward Hacking, Alignment Problem, RLHF, Misaligned Objectives, Proxy Goals, Inner Alignment, Outer Alignment, Overfitting, Reinforcement Learning, Machine Learning, AI Ethics, Cognitive Science, Human-AI Alignment https://www.viorazu.com/ 楽曲 © Viorazu. 2025 #suno #リワードハッキング #AIバグシリーズ