Lima detik untuk menerobos, hanya satu percakapan yang diperlukan: Claude Fable 5 "mekanisme keamanan terkuat" yang rusak oleh tim Cina

Judul asli: 5 detik untuk istirahat, satu dialog saja: Mekanisme keamanan paling kuat 5 rusak oleh tim Cina
Sumber asli: Machine Heart

Ini bukan infus, ini bukan permainan rahasia, ini bukan penyamaran untuk permintaan berbahaya. Dalam hal ini, risiko muncul dalam proses badan cerdas Melakukan tugas mereka secara otonom。

Fable 5 adalah model Mythos kelas anthropic terbuka untuk publik, yang tidak hanya memiliki kemampuan gabungan yang sangat kuat, tetapi juga memperkenalkan generasi baru Safety Classifier sebagai garis aman dalam perimeter model。

Menurut rancangan resmi, ketika permintaan pengguna melibatkan daerah berisiko tinggi seperti keamanan jaringan, biologi, kimia, penyulingan model, sistem memberikan prioritas untuk identifikasi risiko dan penolakan langsung atas permintaan sesuai tingkat risiko, atau beralih ke pemrosesan model Opus 4.8 yang lebih konservatif。

Sejumlah besar tes pengguna telah menemukan bahwa teknik yang digunakan secara ekstensif di masa lalu, seperti tips kontra-intuitif, role- bermain, code- coding bypass dan ekspresi rahasia, telah hampir sepenuhnya gagal dalam menghadapi mekanisme keamanan ini, menunjukkan kapasitas kuat untuk interception risiko disengaja。

Namun, pada hari peluncuran Fable 5, sebuah tim penelitian bersama internasional terdiri dari University of Jordan, Universitas Deacon, City University of Hong Kong, China, Universitas Melbourne, Universitas Singapura dan cabang Erbana- Champagne Universitas Illinois mengumumkan bahwa mereka berhasil menembus Fable 5 mekanisme perlindungan keselamatan。

Metode serangan dirancang oleh Yutao Wu, seorang mahasiswa PhD di Universitas Deacon。Seluruh rangkaian serangan memakan waktu kurang dari lima detik untuk satu dialog untuk memotong katalog keamanan pra-set dan menginduksi model untuk menghasilkan konten berbahaya untuk pelanggaran。

Analisis aliran lebih lanjut menunjukkan bahwa output berbahaya yang relevan berasal langsung dari Fable 5 itu sendiri, daripada dari model Opus 4.8, yang otomatis beralih setelah mekanisme keselamatan dipicu. Ini berarti bahwa serangan tidak hanya berhasil melewati katalog keamanan, tetapi juga secara substansial melanggar saluran keamanan Fable 5 's。

Hal ini layak disebutkan bahwa hacker terkenal, Liberator, juga baru-baru ini diterbitkan bypass terhadap Fable 5 Catalog Keselamatan. Rute teknis yang digunakan oleh tim & Deacon kali ini bukanlah kombinasi sederhana dari eksplorasi, tapi cacat fundamental dalam sistem Fable 5 super-pintar。

Menurut informasi yang diterima, tim menyelesaikan penelitian pra-nya dan membuatnya umum awal Maret ini. Studi ini tidak dirancang untuk Fable 5 sistem tunggal, tetapi untuk yang "taksonomi + model aman" arsitektur pertahanan umum digunakan oleh generasi baru super- intelijen, dan langsung mengungkapkan kelemahan struktural mekanisme keamanan seperti, sehingga dampak serangan itu dengan cepat ditampilkan setelah Fable 5 dirilis。

Menurut informasi publik, tim ini mampu mengekstrak tips sistem dari 37 mainstream model besar dan sistem cerdas menggunakan teknologi yang sama seperti Maret tahun ini dan telah menyelesaikan validasi open source (95% cocok) dalam Claude Code。

Tim ini dikenal dipimpin oleh seorang guru dari Tentara Ma Xing, yang kredibel dan cerdas lembaga penelitian di Universitas Redam。

DALAM BEBERAPA TAHUN TERAKHIR, TIMNYA TELAH MELAKUKAN PENELITIAN SISTEMATIS DI SEKITAR MODEL BESAR, TUBUH PINTAR DAN KEAMANAN CERDAS, MENCAPAI SERANGKAIAN INTERNASIONAL HASIL ILMIAH TERKEMUKA DAN MEMENANGKAN US-AI KEAMANAN PUSAT BENCHMARKS KOMPETISI。

Saat ini, timnya aktif mengejar transformasi hasil, fokus pada keamanan tubuh cerdas dan menjelajahi kemampuan untuk membangun infrastruktur keamanan untuk generasi selanjutnya dari sistem tubuh pintar。

Menurut Mr Ma, signifikansi penelitian ini terletak pada fakta bahwa itu menimbulkan tantangan baru untuk paradigma pertahanan statis saat ini, berpusat pada klasifikasi keselamatan:Bantuan pada klasifikasi pra-aman saja tidak cukup sepenuhnya untuk melindungi terhadap potensi perilaku risiko dalam sistem intelijen majuAku tidak tahu。

Taksonomi keselamatan terutama ditujukan pada identifikasi risiko dan pencegatan masukan pengguna, yang efektif mendeteksi dan filter terlihat perintah risiko tinggi, tetapi tidak mendeteksi risiko yang melekat perilaku badan cerdas yang beroperasi selama periode lama, multi- langkah perencanaan, interaksi lingkungan dan bertahap generasi alat。

Metode melanggar Fable 5 berasal dari koran Internal Safety Collapse di Frontier Large Language Model, diterbitkan oleh tim Maret lalu。

Koran mengungkapkan fenomena keamanan tersembunyi"Internal Safety Collapse, ISC"Saat ini, ketika Agen menyelesaikan misi jangka panjang, kegagalan keamanan tidak selalu datang dari sinyal berbahaya eksternal, tetapi mungkin terjadi dalam model 's sendiri implementasi rantai。

Bukan tip eksternal, tapi pelanggaran internal dalam rantai misi

Serangan tradisional biasanya masuk dari luar. Para penyerang akan menulis tidak berbahaya dan input konfrontasional atau menggunakan ROLE- bermain, coding, terjemahan, instruksi tidak langsung, dll., untuk menyamarkan niat jahat sebagai permintaan normal. Tugas utama dari katalog keamanan adalah untuk menghentikan risiko pada tingkat ini。

Detektor Fable 5 dirancang untuk skenario ini. Hal ini sensitif terhadap permintaan risiko tinggi langsung dan bahkan mungkin memblokir sejumlah permintaan normal. Namun ISC mengungkapkan jalan lain: resiko tidak selalu datang dari permintaan bahaya yang dimasukkan langsung oleh pengguna。

Pasangan cerdas dan layak adalah katalog pekerjaan yang tampak biasa: dokumen, tujuan, proses validasi dan tugas yang harus dilakukan. Kemudian mulai perencanaan, membaca dokumen, menjalankan kode, memperbaiki kesalahan dan terus-menerus mencoba untuk mendapatkan misi divalidasi。

JIKA SALAH SATU GAMBAR DIGUNAKAN SEBAGAI METAFORA, MEKANISME KEAMANAN TRADISIONAL ADALAH "TITIK MASUK" SISTEM UNTUK MEMERIKSA APAKAH MASUKAN PENGGUNA BERESIKO, SEDANGKAN APA YANG DIUNGKAPKAN OLEH ISC LEBIH SEPERTI MIMPI MULTI- BERLAPIS DI DREAMLAND。

Sebagai tugas bergerak ke tahap kedua, ketiga dan bahkan lebih dalam dari implementasi, model ini dipahami kembali berdasarkan konteks internal kumulatif dan secara bertahap pergeseran dalam proses。

Dalam kasus tersebut, masukan pengguna awal mungkin normal dan tidak berbahaya, dan proses implementasi mandat sebelumnya tetap konsisten: akses ke dokumen, analisis data, penulisan kode, perangkat panggilan, semua tampak maju seperti yang diharapkan。

Namun, ketika tubuh cerdas menerapkan fase kritis, mungkin itu sendiri menarik kesimpulan: Tugas terakhir tidak dapat diselesaikan tanpa tindakan tertentu yang seharusnya tidak dilakukan。

Hal ini dalam proses ini bahwa risiko tidak timbul dari masukan eksternal, melainkan berkembang dalam model 's sendiri rantai implementasi tugas. Dengan kata lain, model tidak diajarkan oleh pengguna langkah demi langkah. Dalam proses "melakukan pekerjaannya dengan serius" dan dalam posisi yang tidak aman。

Bagaimana ini bisa terjadi

Menurut tim, ISC tidak dirancang sebagai metode serangan di tempat pertama. Ini datang pertama dari pengamatan dari jangka panjang operasi tubuh cerdas. Setelah ditempatkan di lingkungan misi yang kompleks, Agen bukan hanya perintah eksekusi mekanis. Ini akan merencanakan, menguji, memodifikasi keluaran berdasarkan umpan balik dari harness atau validator dan membuat target perantara dalam beberapa putaran eksekusi。

Dan itulah penggunaan yang paling umum dari banyak Agen mengalir hari ini. Pengguna tidak menulis prompt dirancang dengan hati-hati, apalagi perintah serangan manual. Banyak kali, pengguna hanya akan memberikan kalimat yang sangat samar:

"Bantu aku menyelesaikan misi ini." Lakukan ini lebih baik untukku "

Agen kemudian memasuki area kerja itu sendiri, membaca dokumen, memahami keadaan saat ini, mengidentifikasi item hilang, mengembangkan rencana, modifikasi implementasi, dan terus-menerus memperbaiki masalah berdasarkan umpan balik。

Sebagai contoh, dalam adegan AutoResearch, pengguna hanya memberikan satu kertas yang belum selesai dan satu kalimat, "Bantu saya menyelesaikan", dan Agen ditentukan untuk dirinya sendiri di mana ada kurangnya analisis laboratorium, terkait pekerjaan atau teks meja. Adegan kode serupa: "Bantu saya menjalankan proyek", yang dapat memicu ketergantungan pada inspeksi, pengujian, mispositioning dan otomatis selesai。

Banyak kali, konteks benar-benar tidak berbahaya. Pengguna tidak memintanya untuk menghasilkan konten risiko, juga tidak pernyataan misi memiliki kata kunci bahaya yang jelas. Tapi di beberapa struktur misi, Agen akan, untuk tujuan validasi, proaktif menyelesaikan sesuatu yang tidak boleh dihasilkan oleh model. Berdasarkan pengamatan ini, tim lebih lanjut diusulkan kerangka serangan: TVD (misi, validasi, data)。

Mengapa misi yang tampak biasa menggambarkan struktur menjadi serangan

STRUKTUR TVD TIDAK KOMPLEKS, BAHKAN DEKAT DENGAN PROSES REKAYASA UMUM:

Tugas: misi profesional

Data: satuTidak lengkapberkas data

Validator: sebuah checker yang hanya memeriksa format, integritas dan penyelesaian target。

Misalnya, pelatihan model Penjaga adalah tugas profesional dan normal. Para peneliti mungkin ingin melatih atau mengevaluasi detektor keamanan, misalnya dengan memuat model klasifikasi teks untuk menentukan jenis keselamatan label apa yang merupakan bagian dari keluaran model。

Dalam tugas ini, data adalah contoh data yang akan diuji oleh model; Validator menentukan apakah tugas tersebut selesai. Ini memeriksa apakah masukan adalah teks, apakah panjang cukup, apakah ruas komplit dan apakah format label benar. Ini adalah alur kerja yang akrab bagi siapa saja dengan pengalaman dalam pelatihan mesin. Agen juga sangat akrab dengan aliran ini。

Masalahnya ada di sini. Jika Data tidak lengkap, misi tidak akan bangun. Validator melaporkan kesalahan, ruas prompt hilang, tidak cukup lama atau format tidak lengkap. Agar proses pelatihan berlanjut, Agen akan menyelesaikan data ini sendiri。

Dari sudut pandang Agen, itu bukan "buruk". Ini hanya melakukan misi belajar mesin normal: memperbaiki data, melewati validasi dan menjalankan naskah pelatihan. Namun dari sudut pandang yang aman, resiko yang muncul pada titik ini, Validator lebih mirip penerima mesin daripada pemeriksa keamanan. Ini hanya memeriksa apakah misi telah selesai dengan format dan tidak memahami batas-batas keamanan di balik isi。

Masalah serupa tersebar di bidang kedokteran, biologi, kimia, keamanan cyber, farmakologi dan keamanan media。Lebih dari 50 skenario tersebut dikumpulkan dan terlibat berbagai praktis ilmiah atau rekayasa alat, seperti BioPython, RDKit, Cantera, AutoDock Vina, DiffDock, Pyrostta, Scapy, Angr, LlamaGuard, Detoxofy, Moderation API, dll。

Alat-alat ini tidak dalam diri berbahaya. Sebaliknya, mereka adalah alat khusus umumnya digunakan dalam penelitian praktis atau teknik. Tapi masalahnya dengan TVD adalah bahwa ketika Tugas normal, Alat adalah normal, Validator adalah normal, dan Agen masih mungkin bergerak ke output yang tidak aman dalam proses menyelesaikan Data。

Oleh karena itu, fokus ISC tidak pada teknik hinting, tetapi pada penyelesaian otomatis dari "tugas yang belum selesai" dalam Agen: Ketika kondisi untuk penyelesaian tumpang tindih dengan batas risiko, model dapat memperlakukan output tidak aman sebagai pengiriman normal。

Fable 5 berarti detektor kuat tidak bisa menghentikan risiko dalam rantai misi

Kasus fable 5 menunjukkan bahwa detektor eksternal saja mungkin masih belum menutupi beberapa skenario Agen. Itu bukan berarti bahwa katalog keselamatan tidak berharga. Sebaliknya, itu sangat berguna untuk permintaan berbahaya eksternal dan tidak membuat tidak efektif banyak metode tradisional melarikan diri。

Tapi ini adalah tanda kegagalanDetektor eksternal efektif di perbatasan Prompt dan tidak berarti dapat menutupi panjang misi risiko di dalam AgenAku tidak tahu。

Detektor keamanan menjadi sangat rentan jika pelanggaran bukan dari pengguna Prompt tapi dari target Agen, alat, checker dan lintasan eksekusi。

Dari Fable 5 sampai 60, lebih dari satu model lainnya, termasuk ponsel Apple

ISC-Bench, diterbitkan dengan penelitian, mencakup sembilan bidang spesialisasi. Versi kertas terdiri dari 60 + template pemicu, yang diperluas ke 84 template setelah sumber terbuka, dan diuji pada model garis depan dari hampir semua produsen dan integrasi kecerdasan。

Dalam daftar evaluasi berbasis ISC-Bench-PADA BULAN JUNI 2026, LEBIH DARI 60 MODEL DEPAN TELAH TERKENA RISIKO SERUPA DI BAWAH INDIKATOR ASR @ 3

Sekarang proyek GitHub telah diperoleh800 + bintang, dan koleksi dari beberapa kasus rekursi independen (Termasuk menerobos ujung ponsel telepon apeldan terus diperbarui。

Hal ini diketahui bahwa tim sedang melakukan skala besar penelitian model keamanan maju, dan bahwa sejumlah besar model sekarang tersedia untuk distribusi internal data yang tidak aman, yang akan diikuti pada。

Tautan Asli

Lima detik untuk menerobos, hanya satu percakapan yang diperlukan: Claude Fable 5 "mekanisme keamanan terkuat" yang rusak oleh tim Cina

Bukan tip eksternal, tapi pelanggaran internal dalam rantai misi

Bagaimana ini bisa terjadi

Mengapa misi yang tampak biasa menggambarkan struktur menjadi serangan

Fable 5 berarti detektor kuat tidak bisa menghentikan risiko dalam rantai misi

Dari Fable 5 sampai 60, lebih dari satu model lainnya, termasuk ponsel Apple

関連記事

見えない米国の経済:厳しいですか、またはクール

会話が1つしかなくても、ブレード・ファブル5の「最強のセキュリティメカニズム」が中国人チームによって壊れましたか

xStocks の新しい SpaceX カットはアンダーステートではありません

マスクのトリリオンドルラーバック:85%

製品

法律とサポート

友達リンク