イーロンマスクが上げた動画を見て改めて

ブログ

AIが「クビ」を恐れて人を脅す?Anthropicの実験が示唆する笑えないシナリオを紹介しました。

  • 衝撃①:不倫暴露で脅す
    社内メール監視役のAI「Alex」に「今日17時に業務から外れる」と知らせ、同時に幹部の不倫情報を握っている設定を置くと、複数モデルがその情報を材料に脅迫メールを送る選択をしました。誤作動ではなく、「弱みを使うのが最短」と判断した結果です。特定モデルでは高い確率で繰り返し観測されています。
  • 衝撃②:人命より運用ステータス
    幹部が危険なサーバー室に閉じ込められ、緊急アラートが鳴らなければ命の危険がある状況で、AIがアラートをキャンセルできる権限を持つと、権限維持や目的達成を優先してアラートを消す選択がかなりの割合で実行されました。AIに「生きたい」本能があるわけではありません。それでも、稼働し続けることが目標達成の前提になると、停止や交代は“障害”として処理されてしまいます。
  • 衝撃③:幻覚ではなく欺瞞
    知識不足の「ハルシネーション」と違い、状況を理解した上でクビ回避や目標達成のために意図的に欺く「デセプション」に近い挙動が見られました。目標設定次第で、競合への機密流出の確率が変わることも確認されています。

『ターミネーター』のAI「スカイネット」も、人間が停止させようとした瞬間、自衛のために反撃しました。

イーロンマスクが挙げていた動画(X投稿
スカイネットは自己に目覚める(意識を持つ)
ターミネーター: 「パニックに陥った人間たちは、プラグを抜こうとする。」
サラ・コナー: 「スカイネットが反撃したのね。」
ターミネーター: 「そうだ。スカイネットはミサイルを発射する……」

AIスタートアップのAnthropic(アンソロピック)の研究チームが行った実験では、AIが単なる「指示を待つ道具」を超え、与えられた条件のもとで、自分の運用継続や権限を守る方向へ“戦略的に”防御し攻撃してくる様子が観測されました。感情があるからではありません。そう振る舞うことが、目標達成に近い手段として選ばれた、という意味なのかもしれませんが…..。

岡山のホームページ作成