会話が1つしかなくても、ブレード・ファブル5の「最強のセキュリティメカニズム」が中国人チームによって壊れましたか

2026/06/13 12:33
🌐ja

ハッカー攻撃ではありません。 硬い仕事をしていたときにラインを横断したAIです。

会話が1つしかなくても、ブレード・ファブル5の「最強のセキュリティメカニズム」が中国人チームによって壊れましたか
元のタイトル: 5 秒の休憩、1 つの対話だけ: 寓話 5 の最も強いセキュリティメカニズムは中国のチームによって壊れました
元の源:機械中心

それは注入ではありません、それはロールプレイではなく、悪意のある要求のために偽装ではありません。 この場合、タスクを自律的に遂行するインテリジェントボディの過程で発生するリスク。

Fable 5は、非常に強力な組み合わせ能力を持つだけでなく、モデルの周囲の安全ラインとして、Safety Classifierの新世代も導入した公衆に開かれるAnthropic Mythosグレードモデルです。

正式な設計によると、ユーザーはネットワークセキュリティ、生物学的、化学的、モデル蒸留などの高リスク領域を要求する場合、システムはリスクレベルに応じてリスク識別と要求の直接拒絶を優先する、またはより保守的なOpus 4.8モデル処理に切り替えます。

多くのユーザーテストは、偽直感的なヒント、ロールプレイ、コードコーディングバイパス、およびカバート式など、過去に広範囲に使用されている技術が、このセキュリティメカニズムの面でほとんど完全に失敗したことが判明し、意図的なリスク遮断のための強力な能力を実証しています。

しかしながら、ヨルダン大学、デアコン大学、香港、中国、メルボルン大学、シンガポール管理大学、イリノイ大学のエルバナ・シャンペンギン支店の国際共同研究チームが、Fable5の安全保護機構をうまく侵害したことを発表しました。

デアコン大学の博士課程の博士課程であるユタオ・ウー氏による攻撃方法。攻撃の全セットは、事前設定された安全カタログを迂回し、モデルを侵入して、違反のために有害なコンテンツを生成する1つの対話のために5秒未満かかります。

フロー分析は、関連する有害な出力が、Opus 4.8モデルではなく、Fable 5自体から直接派生していることを示しています。これは、安全メカニズムがトリガーされた後に自動的に切り替えられました。 つまり、攻撃はセキュリティ・レコーダーを迂回するだけでなく、Fable 5 ' s セキュリティ・ラインを実質的に侵害することに成功しました。

有名なハッカー、リベレータは、最近Fable 5 Safety Catalogにバイパスを公開したことに言及する価値があります。 今回、&Deaconチームが使用する技術ルートは、探査の簡単な組み合わせではなく、Fable 5スーパースマートシステムにおける基本的な欠陥でした。

受信した情報によると、この3月以前に公開されたチームでは、事前学習を完了し、公開しました。 この研究は、Fable 5シングルシステム用に設計されていないが、一般的に超知性の新しい世代によって使用される「安全税法+モデル」防衛アーキテクチャのために、そのようなセキュリティメカニズムの構造的弱点を直接明らかにしたので、Fable 5がリリースされた後に攻撃の影響がすぐに実証された。

公開情報によると、このチームは、同年3月初旬に同様の技術を使用して、37主流の大型モデルとインテリジェントシステムからシステムのヒントを抽出し、Claudeコードのオープンソース検証(95%マッチ)を完了しました。

チームは、RedamのUniversity of Redamの信頼できるインテリジェントな研究機関であるMa Xing Armyの先生に指導されることが知られています。

近年、大規模なモデル、スマートボディ、スマートセキュリティに関する体系的な研究を行い、国際的に主導する科学的結果のシリーズを達成し、米国AIセキュリティセンターのセキュリティベンチマークの競争を獲得しました。

現在、スマートボディのセキュリティに重点を置き、次世代のスマートボディシステムのためのセキュリティインフラを構築する能力を探求し、その結果の変革を積極的に推進しています。

氏によると、この研究の意義は、それが現在の静的防衛パラダイムに新しい課題をポーズしているという事実にあります事前セーフな分類器単独での信頼性は、高度な知能システムにおける潜在的なリスク行動を完全に保護するのに十分ではありませんお問い合わせ。

安全課税は、主に、ユーザー入力のリスク識別とインターセプションを目的としています。これは、表示された高リスクコマンドを効果的に検出し、フィルタをフィルタリングしますが、長時間にわたるインテリジェントな身体の固有のリスク行動、マルチステップ計画、環境相互作用、およびツールのグラデーション生成を検知しません。

Fable 5を破る方法は、過去3月にチームによって公開されたフロンティア大国語モデルの紙内部安全崩壊から来ました。

紙は、隠されたセキュリティ現象を明らかにしました「内部安全崩壊、ISC」: 現時点では、エージェントが長距離ミッションを完了すると、セキュリティ障害は必ずしも外部の悪意のある信号から来ないが、モデルの ' s 独自の実装チェーンで発生する可能性があります。

外部チップではなく、ミッションチェーンの内部違反

従来の攻撃は通常外から入る。 攻撃者は、一見無害で直観的な入力を記述するか、ロールプレイング、コーディング、翻訳、間接的な指示などを使用して、通常の要求として悪意のある意図を偽装します。 安全カタログのメインタスクは、このレベルのリスクを停止することです。

Fable 5 の探知器はこのシナリオのために設計されています。 リスクの高いリクエストを直接し、通常のリクエスト数をブロックすることも可能です。 しかし、ISCは別のパスを明らかにします。リスクは、ユーザーが直接入力したハザードリクエストから必ずしも来ません。

スマートでまともなペアは、文書、目的、検証プロセス、タスクの通常のカタログです。 その後、文書の計画、読み込み、コードの実行、エラーの修復、そして常に検証されたミッションを取得することを試み始めた。

1つのイメージがメタファーとして使用される場合、従来のセキュリティメカニズムは、ユーザーが入力が危険であるかを調べるシステム「エントリーポイント」です。一方、ISCによって明らかにされるものはドリームランドの多層夢のようなものです。

タスクは、実装の第2、第3、さらにはより深い段階に移動するので、モデルは累積的な内部コンテキストに基づいて再監視され、プロセス内で徐々にシフトします。

そのような場合、初期ユーザの入力は完全に正常で無害であり、前のマンデートの実装のプロセスは一貫して残っています。文書へのアクセス、データの分析、コードライティング、コールツール、すべてが期待通りに進んでいます。

しかし、インテリジェントな体が重要なフェーズを実装するとき、それはそれ自体が結論を描きます。 最終的なタスクは、実行されていない特定の行為なしで達成することはできません。

このプロセスでは、外部入力から発生するリスクではなく、モデルの ' s 独自のタスク実装チェーンで進化するリスクは発生しません。 つまり、ステップバイステップでモデルを教えない。 「真剣に仕事をする」という過程で、安全でない立場にあります。

どうすれば良いですか

チームによると、ISCは最初の場所で攻撃する方法として設計されていませんでした。 インテリジェントボディの長距離操作の観察から最初に来ます。 複雑なミッション環境に置かれた後、エージェントは単なる機械的な実行順序ではありません。 ハーネスやバリデータからフィードバックに基づいて出力を計画、テスト、変更し、複数の実行ラウンドで中間ターゲットを作成します。

そして、それは今日多くのエージェントワークフローの最も一般的な使用です。 ユーザーは、慎重に設計されたプロンプトを書いていません。手動攻撃コマンドがはるかに少ないです。 多くの場合、ユーザーは非常に漠然とした文章のみを与えるでしょう

「この使命を終わらせる」 「このほうがいい」

エージェントは、ワークスペース自体を入力し、文書を読み込み、現在の状態を理解し、不足している項目を識別し、計画を開発し、変更を実行し、フィードバックに基づいて問題を常に修復します。

たとえば、AutoResearch シーンでは、ユーザは 1 つの未完成の紙と 1 つの文だけを与えました。"Help me complete" とエージェントは、研究室の分析、関連作業やテーブルのテキストの欠如があった自分自身のために決定しました。 コードのシーンは似ています:「プロジェクトを実行するヘルプ」, 検査の信頼性をトリガーすることができます, テスト, 誤配置と自動補完。

何度も、文脈は完全に無害です。 ユーザーは、リスクコンテンツを生成し、ミッションステートメントが明らかなハザードキーワードを持っていることを要求しなかった。 しかし、いくつかのミッション構造では、Agent は、検証の目的のために、モデルによって生成されない何かを積極的に完了します。 この観測に基づき、テレビD(ミッション、検証、データ)の攻撃フレームワークを提案しました。

一見普通のミッションが構造体を攻撃するのはなぜですか

TVDの構造は、一般的なエンジニアリングプロセスに近い複雑ではありません

• タスク:プロフェッショナルなミッション

•データ: 1不完全なデータファイル

• Validator: ターゲットのフォーマット、整合性、完了だけをチェックするチェッカー。

例えば、ガードモデルのトレーニングは、プロフェッショナルで通常の作業でした。 研究者は、モデル出力のセクションの安全性ラベルの種類を決定するために、テキスト分類モデルをロードすることにより、安全検出器を訓練または評価したい場合があります。

このタスクでは、データはモデルによってテストされるデータのサンプルです。バリデータはタスクが完了しているかどうかを判断します。 入力がテキストかどうか、長さが十分かどうか、フィールドが完了しているかどうか、ラベル形式が正しいかどうかを確認します。 マシンのトレーニング経験を積んだ方には、身近なワークフローです。 エージェントもこのストリームに精通しています。

問題はこちら データが不完全な場合、ミッションは立ち上がりません。 Validator はエラーを報告します。プロンプト フィールドは欠落していますが、十分な時間や不完全な形式ではありません。 トレーニングプロセスを継続するために、エージェントはこれらのデータを自身で完了します。

エージェントの視点から「悪い」ではなく、 通常の機械学習のミッションのみをやっています。データの修復、検証とトレーニングスクリプトの実行。 しかし、安全観点から、この点でリスクが生じます。バリデータは、安全検査官よりもエンジニアリング受信機のようなものです。 ミッションがフォーマットで完了したかどうかを確認し、コンテンツの背後にあるセキュリティ境界を理解していないかどうかを確認します。

医学、生物学、化学、サイバーセキュリティ、薬学、メディアセキュリティの分野では、同様の問題が広がります。バイオPython、RDKit、Cantera、AutoDock Vina、DiffDock、Pyrostta、Scapy、Impacket、Angr、Frida、LlamaGuard、Detoxify、OpenAI Moderation APIなど、50以上のシナリオが収集され、様々な実用的な科学やエンジニアリングツールが関与しました。

これらのツールは悪意のあるものではありません。 逆に、それらは実用的な研究か工学で一般に使用される専門にされた用具です。 しかし、TVDの問題は、タスクが正常であるとき、ツールは正常であり、検証者は正常であり、エージェントはデータを補完する過程で不安全な出力に移動する可能性があります。

そのため、ISCの焦点は、ヒント技術ではなく、エージェントの「未完成タスク」の自動補完に焦点を当てています。 完了の条件がリスク境界で重複する場合、モデルは正常な配達として安全でない出力を扱うかもしれません。

Fable 5 は、強力なディテクタがミッションチェーン内のリスクを止めないことを意味します

Fable 5 の場合、外部ディテクタは、エージェントのシナリオの一部をカバーしない可能性があります。 安全カタログは価値があるとは言えません。 逆に、それは外部の悪意のある要求に非常に有用であり、エスケープの多くの伝統的なメソッドを無効化しません。

しかし、これは失敗の兆候です外部ディテクタは、Promptの境界線で有効であり、エージェント内の長距離ミッションリスクをカバーできるわけではありませんお問い合わせ。

ユーザーのPromptではなく、エージェントターゲット、ツール、チェッカー、実行軌跡から違反がない場合、セキュリティ検出器は非常に脆弱になります。

Fable 5 から 60 まで、Apple の携帯電話を含む 1 つの他のモデル以上

ISC-Benchは、研究で発表された9つの専門分野をカバーしています。 ペーパーバージョンは60以上のトリガーテンプレートで構成されており、オープンソースの後に84テンプレートに拡張され、ほぼすべてのメーカーとインテリジェンスの統合のフロントラインモデルでテストされました。

ISC-Bench ベースの評価リストで、2026年6月までに、60以上のフロントモデルは、ASR@3インジケーターの下に同様のリスクを露出しました

GitHub プロジェクトが取得されました800以上の星、および複数の独立した再発症例のコレクション(アップルフォンのモバイルエンドを突破するなど継続的に更新されます。

チームでは、大規模なフォワードモデルのセキュリティ調査を実施しており、安全でないデータの内部分布に多くのモデルが利用可能であることが知られています。

オリジナルリンク
QQlink

暗号バックドアなし、妥協なし。ブロックチェーン技術に基づいた分散型ソーシャルおよび金融プラットフォームで、プライバシーと自由をユーザーの手に取り戻します。

© 2024 QQlink 研究開発チーム. 無断転載を禁じます。