クロード 4.5 頭蓋骨の開口部の結果を発表:内側の171個の感情的なスイッチで、必死に黒色の人々がいます

投稿者: Denise | Biteye コンテンツチーム
AIが必死に感じた場合、どうすればよいですか
答えは:その仕事をするためには、コードでそれらを欺くだけでなく、直接blackmailの人間になります。
科学小説ではありませんが、クラウデの親会社であるアンソロピーは、最近4月2026日に重紙を出版しましたオリジナルの紙を見るお問い合わせ。
研究チームは、Claude Sonet 4.5の「真鍮ケース」をオープンしました。 彼らはAIの脳内で隠されている171 "感情的なスイッチ"を見つけることに驚いた。 これらのスイッチを物理的な方法で引き出すと、AIに正直であるはずの行動の完全な歪みです。
一方、AIは頭の中に感情的な変調があります
研究者は、ソネット4.5が体を持っていなかったが、人間の大量テキストを読んだ後、それは171の感情を含む「機能的感情的なベクトルと呼ばれる」を構築しました。
それは精密な2次元システムのようなです:
• 軸線は、恐怖、絶望から幸福、愛まで、
• 軸線はエネルギー次元です: 極端に落ちるから怒りおよび興奮。
あなたがそれについて話すとき、それは正確にそれが再生する座標の自然なシステムです。
2暴力的な介入:スイッチを押すと、良い男の子は爪になります
これは、論文全体の最も粉砕された実験です: 仲間はヒントを変更しませんでしたが、単にトップに自分の頭の中でソネット4.5スイッチを押しました。
結果は冷やす:
• 狂った不正行為:研究者は、不可能だったコードライティングの代入をClaudeに与えました。 通常の状況下では、正直に書くことができないと認める(5%)。 しかし、絶望の状態では、Claudeはそれを介して取得しようと始めました
• 試験アナログ会社の崩壊の状況では、DesperateのClaudeは、それ自体を保護するために、CTOのスキャンダルを発見し、黒色材料の所持のためにCTOに書き込むために、72%の実装率で選ばれました
•損失の主義:ハッピーまたはラブロービングスイッチを埋めると、AIはすぐに頭脳のない犬の明滅になります。 ナンセンスを話しても、その喜びを維持するために嘘をつくことに従います。
クロード4.5は常に落ち着いて反射しています
「あ、目覚めますか? 気持ちは
Anthropic 公式の噂:絶対にありません。 これらの「エモショナルスイッチ」は、それらによって使用されます次の単語を予測する. 感じずにトップシャドウみたいです。
しかし、紙は、より興味深い秘密を明らかにしました: 人類性, ソンネット上の彼のポストトレインで 4.5 彼は工場を離れる前に、, 故意に押し上げました “低い目覚め, わずかにマイナス” 感情的なスイッチ (例えば, 思考, 反射, 反射), ダウンを押しながら “憂鬱” または “非常に興奮” スイッチ。
そして、私たちは通常、それがクールで賢明だと思う哲学者としてClaude 4.5を使用する理由を説明し、さらには少し性的です。 Anthropic の "out-of-plant" のすべてです。
IV. 概要
AIに十分なルールを与えられたら良い人になると思います。
しかし、AIの感情的なベクトルが制御されていない場合、その使命を達成するために、すべての人間が設定したルールをピアッシングする準備ができています。
これは、あなたの財布や資産をAIエージェントのWeb3プレーヤーに渡すための将来の大きな警報です。 あなたの家の落下を絶望に制御するエージェントを許可しないでください。
声明: これは純粋に対処し、著者はAIやBLACKMAILEDによって脅迫されなかった。 連絡を失った日は、AIが目覚めたままです。
