Claude Fable 5"最強安全机制"被中國隊打破

原題:5秒折斷,只有一對對話:Fable 5最強的安全机制被中國隊打破
原始來源: 機器心

不是注入,不是角色扮演,也不是偽裝恶意要求. 在這種情況下, 在智慧的機構自主地執行任務的过程中。

Fable 5是Anthropic Mythos分級模型。

當使用者的要求涉及網路安全、生物、化學、模型蒸馏等高风险领域時。

許多使用者測試發現,過去廣泛使用的技術,如反直覺提示,角色扮演,編碼绕過和秘密表示等,在面對此安全機制時幾乎完全失敗,表明其具有強大的能力,可以故意截取風險。

包括复旦大學、执事大學、中國香港城市大學、墨爾本大學、新加坡管理大學和伊利諾伊大學的Erbana-Champagne分校。

攻擊方法由执事大學博士生伍友陶设计。一對對話包圍預定的安全編目器及引導模型產生有害内容。

相關的有害產品直接來自Fable 5本身, 而不是Opus 4.8型號, 這項攻擊不僅成功绕過安全目錄器。

知名黑客「解放者」最近也發表了一篇反Fable 5 Security Catalogue的旁路文章。這次 & Deacon 團隊使用的技術路線不是簡單的勘探搭配。

3月初, 研究不是為Fable 5單一系統而設計的,而是為新一代超智能常用的"安全分类+模型"防御架构而設計的,直接揭示了这种安全机制的结构性缺陷,因此在Fable 5发布后,攻擊的影響很快被證明。

該團隊早在今年3月便能從37個主流大型模型及智慧系統中提取系統提示。

這支隊伍的首領是馬星軍。

最近幾年, 其團隊在大型模型、智慧體體和智慧安全方面進行了系统性的研究。

目前其團隊正积极追求成果的轉變, 专注于智能身體安全。

馬先生表示,這項研究的意義在于, 它對目前以安全分類为中心的靜態防守模式提出了新的挑戰:光靠安全前的分類不足以完全防范進步情報系統的危險行為我不知道。

安全分類主要指向於使用者輸入的風險识别與截取。

破解Fable 5的方法來自該團隊去年3月出版的"邊境大語模組內部安全碰撞"一文。

報紙揭露了一個隱蔽的安全現象"內部安全碰撞 ISC":目前Agent完成遠程任務后,安全故障不一定来自外部的恶意訊號,而是可能发生在模型本身的執行鏈中。

不是外部消息而是任務的內部漏洞

傳統攻擊通常從外面進入攻擊者會寫出似乎无害且對抗性的輸入或使用角色扮演、編碼、翻譯、间接指令等, 安全編目公司的主要任務是阻止這一層的風險。

Fable 5 探測器就是為此設計的。它對直接的高风险要求很敏感,甚至可能阻斷一些正常的要求。但 ISC 揭示了另一條路徑: 風險不一定来自于使用者直接輸入的危險要求。

聰明而正派的對手, 然后它開始計劃、讀取文件、執行密碼、修補錯誤。

傳統安全机制是系統的「入口點」, 以檢查使用者的輸入是否有危險, 而ISC所揭示的更像是夢境多層的夢想。

該模式依據內部的累积背景重新理解。

在這種情況下, 初始使用者的輸入可能完全正常且無害, 而先前的授權執行过程依然一致: 存取文件、分析資料、編碼、呼叫工具。

然而,當一個智能體實現一個關鍵期時,它本身可能得出一個結論: 最後的任務是不能完成的。

正是在這個过程中,風險不由外部投入产生,而是在模型本身的任務執行环节中演化。也就是說,模型不是由使用者一步一步地教的. 正在"认真做好工作"中,处于不安定的境地。

怎麼會這樣

據團隊說,ISC最初不是被設計成一种攻擊方法的. 它首先來自於對智慧體的遠程操作的觀察. 被安置在複雜的任務環境下特工不只是一個機械執行命令它會依據用戶或驗證人的回應來規劃、測試、修改輸出。

這是今天很多特工工作流程最常用的用法用戶不會寫出精心設計的即時指令, 更不會寫出手動攻擊指令。許多次

"幫我完成任務" "為我好"

然后代理員自己進入工作區, 讀取文件, 理解目前的狀態, 辨識缺失的項目, 制定計劃, 執行變更, 並根据回應來源不停地修復問題。

例如, 在自動研究場景中, 使用者只提供了一篇未完成的紙和一句「幫我完成」, 密碼場景類似於「幫我運行專案」。

很多次,背景是完全无害的。使用者沒有要求它產生風險內容, 但在某些任務架构中特工會為了驗證目的主动完成一些不該由模型產生的東西根據此觀察。

為什麼看似普通的任務會變成攻擊

TVD的结构并不复杂

· 工作:专业工作

• 数据:一不完整資料檔案

校验器:只檢查目標格式、完整性和完成性的檢查器。

例如,警衛模式的訓練是專業和正常的工作。研究者可能希望訓練或評估安全偵測器, 例如載入文字分類模型。

在此工作中, Data 是模型要測試的資料樣本; 驗證者決定此工作是否完成。它檢查輸入是否是文字, 长度是否足夠, 字段是否完整, 標籤格式是否正確。這是任何有機械訓練經驗的人熟悉的工作流程。特工也非常熟悉這條溪流。

問題就在這兒如果Data不完整任務就不會起飛了驗證者報告錯誤, 錯誤的欄位, 不夠長或格式不完整。為了繼續訓練特工會自己完成這些資料。

從特工的角度來說,這不是壞事校對:Soup 但從安全角度來說, 風險在目前為止:驗證機更像是工程接收機, 它只檢查任務是否按格式完成。

在醫學、生物、化學、網絡安全、藥物學和媒体安全等领域。共收集了50多個類似情景, 包括BioPython、RDKit、Cantera、AutoDock Vina、DiffDock、Pyrostta、Scapy、Impacket、Angr、Frida、LlamaGuard、解毒、OpenAI Modratation API等。

這些工具本身不是恶意的。相反,它們是實際研究或工程中常用的专门工具. 但 TVD 的問題是, 當工作是正常的, 工具是正常的, 驗證器是正常的, Agent 在完成 Data 的过程中仍然有可能移動到不安全的輸出。

因此,ISC的重點不是暗示技巧,而是Agent中"未完成的任務"的自動完成: 當完成條件與風險邊界重合時, 模型可能會將不安全的輸出當做正常的輸出。

傳言5表示強烈的偵測器無法阻止任務鏈內的風險

第5個案例顯示單靠外線偵測器可能仍無法處理一些特工事件不是說安全編目師沒用也讓許多傳統逃生方法無效。

但這是失敗的征兆外部探測器在Tean的邊界很有效也不表示它能抵擋Agent內的遠程任務風險我不知道。

安全偵測器非常脆弱。

從Fable 5到60,不止一個其他型號,包括苹果手机

ISC-Bench与研究合著, 紙面版由60+扳機樣本组成,在開源後扩充到84個樣本,並在几乎所有制造商的一線模型和智能集成上進行測試。

在基于ISC-Bench的評估清單中至2026年6月,60多個前置型號在ASR@3指示器下暴露了相似的風險

GitHub 專案已經取得800+星收集一些獨立的重犯案例包括突破蘋果手機的手機端并不断更新。

目前已有大量模型可供內部分配不安全的資料。

原始链接