Claude selalu membuat kesalahan? 12 aturan ini membawa tingkat kesalahan turun ke 3%

2026/05/15 23:08
🌐id

Dari 41% ke 3%, Karpathy empat aturan tidak cukup

Claude selalu membuat kesalahan? 12 aturan ini membawa tingkat kesalahan turun ke 3%
Judul asli: peraturan Karpathy 4 CLAUDEMD memotong Claude film dari 41% sampai 11%
Original by: @ Mnilax
Foto oleh Peggy Block Beats

Editor ini menekan: Pada bulan Januari 2026, parasut Andrej Karpathy pada kode tulisan Claude menyebabkan dokumen yang tampak kecil namun sangat kritis dalam alur kerja pemrograman AI: CLAUDED. Forrest Chang kemudian mengorganisir isu-isu ini menjadi empat aturan perilaku, mencoba untuk membatasi kesalahan bahwa Claude biasanya membuat ketika coding: diam hipotesis, over- rekayasa, cedera terhadap kode tidak berhubungan, dan kurangnya kriteria keberhasilan yang jelas。

Beberapa bulan kemudian, Claude Code tidak lagi hanya "membiarkan model menulis kode". Sebagai Agen multi- langkah, hok rantai pemicu, keterampilan loading dan multi- kode kolaborasi perpustakaan menjadi normal, model baru kegagalan mulai muncul: model berada di luar kendali dalam misi panjang, tes lulus tanpa logika otentik, migrasi dilakukan tapi diam-diam melalui kesalahan, dan gaya kode berbeda yang salah。

Penulis makalah ini telah menguji 30 kode perpustakaan dalam waktu enam minggu dan menambahkan delapan aturan baru untuk aturan Karpathy yang asli 4 dalam upaya untuk menutupi isu baru program AI dari penyelesaian tunggal untuk kolaborasi Agen。

Berikut adalah teks asli:

Akhir pada bulan Januari 2026, Andrej Karpathy mengirimkan sebuah kalimat tweet, meludahi cara Claude menulis kodenya. Dia menunjuk ke tiga masalah khas: asumsi palsu dalam ketiadaan penjelasan, kompleksitas yang berlebihan, dan kerusakan yang tidak terkait pada kode yang seharusnya tidak diubah。

Forrest Chang melihat string tweet ini, terorganisir keluhan ke dalam empat aturan perilaku, memasukkan terpisah CLAUDE.md file dan diterbitkan di GitHub. Pada hari pertama proyek tersebut, 5.828 Bintang diperoleh, dikumpulkan 60.000 kali dalam dua minggu, dan hari ini ada 120.000 bintang, yang cepat tumbuh file kode gudang pada 2026。

Dan kemudian, dalam enam minggu, saya mengujinya dalam 30 perpustakaan kode。

Aturan ini memang berlaku. Di masa lalu, sekitar 40 persen kemungkinan kesalahan jatuh kurang dari 3 persen dari tugas-tugas yang sesuai dengan aturan ini. Tapi masalahnya adalah bahwa template ini awalnya dirancang untuk memecahkan kesalahan pada bulan Januari ketika Claude menulis kode。

Pada Mei 2026, masalah ekologi yang dihadapi oleh Claude Code berbeda: konflik antara Agen, pemicu rantai Hook, konflik terampil, dan gangguan berbagai langkah。

Jadi saya menambahkan delapan aturan. Mengapa setiap aturan yang layak bergabung dan di mana pola Karpathy asli akan disertakan diam-diam di empat tempat。

Jika Anda ingin melewatkan penjelasan, salin secara langsung dan meninggalkan file penuh di akhir teks。

Kenapa ini penting

Claude Code 's CLUDEMD adalah dokumen yang paling diremehkan dalam lemari besi teknologi pemrograman AI. Kebanyakan pengembang biasanya membuat tiga jenis kesalahan:

pertama, bawa sebagai tong sampah, masukkan semua kebiasaanmu ke dalamnya, dan kemudian perluas lebih dari 4000 token, dan turunkan tingkat kepatuhan ke 30%。

kedua, anda tidak perlu melakukannya sama sekali. hal ini akan menghasilkan lima kali limbah token dan kurangnya konsistensi antara sesi。

Ketiga, setelah menyalin template, tidak masalah lagi. Ini mungkin bekerja selama dua minggu, tetapi dengan perubahan di perpustakaan coding, itu akan gagal tanpa pengetahuan Anda。

Dokumen resmi antropik sangat jelas: CLAUDEMD pada dasarnya hanya merekomendasikan. Claude akan memiliki sekitar 80% waktu untuk mengikutinya. Setelah lebih dari 200 baris, tingkat kepatuhan secara signifikan berkurang, karena aturan penting dibanjiri dengan kebisingan。

Templat Karpathy memecahkan masalah: satu dokumen, 65 baris, 4 aturan. Ini adalah benchmark minimum。

Tapi langit-langit bisa lebih tinggi. Setelah menambahkan delapan aturan berikut, tidak hanya mencakup kode menulis masalah yang Karpathy keluhkan pada bulan Januari 2026, tetapi juga masalah organisasi Agen yang muncul hanya pada Mei 2026 - masalah yang tidak ada ketika template asli ditulis。

Aturan 4 Asli

Jika Anda belum melihat gudang Forrest Chang, lihat versi dasar ini:

Pikirkan sebelum coding。

Jangan membuat asumsi. Untuk menggambarkan hipotesis Anda, mengekspos trade- off. Pertanyaan sebelum spekulasi. Ketika pilihan sederhana ada, keberatan dibesarkan pada inisiatif mereka sendiri。

Aturan 2: prioritas sederhana。
Gunakan kode minimum yang memecahkan masalah. Jangan tambahkan ke fungsi imajinasi. Jangan merancang lapisan abstrak untuk satu-waktu kode. Jika insinyur senior akan berpikir itu terlalu kompleks, itu harus disederhanakan。

Aturan 3: modifikasi bedah。
Hanya mereka yang harus berubah. Jangan "optimisme" kode tetangga, catatan atau format. Jangan menciptakan hal-hal yang tidak rusak. Pertahankan gaya saat ini。

Aturan 4: Objective- terorientasi implementasi。
Mendefinisikan kriteria kesuksesan, dan kemudian loop dari waktu ke waktu sampai validasi selesai. Jangan katakan Claude apa yang harus dilakukan setiap langkah, tapi katakan padanya apa yang seharusnya menjadi seperti untuk berhasil, dan membuat satu iteratif。

Dan keempat aturan yang saya lihat dalam percakapan tanpa pengawasan Claude Code ini adalah sekitar 40 persen dari pola kegagalan. Yang tersisa 60% dari masalah tersembunyi di daerah kosong di bawah ini。

Delapan aturan baruku, dan kenapa

Setiap aturan berasal dari momen yang nyata: empat aturan asli Karpathy tidak lagi cukup. Aku akan mulai dengan adegan, maka saya akan memberikan aturan yang sesuai。

Aturan 5: Jangan biarkan model melakukan pekerjaan non-linguistik

Claude dapat digunakan untuk memproses: klasifikasi, penyusunan, ringkasan, mengekstrak informasi dari teks yang tidak terstruktur. Jangan gunakan Claude pengolahan: rute, tes ulang, pemrosesan status, konversi kepastian. Jika kode status telah menjawab pertanyaan, biarkan kode normal menjawab pertanyaan。

Aturan Karpathy tidak mencakup ini. Model kemudian mulai menentukan beberapa masalah yang seharusnya dibahas oleh kode kepastian: apakah akan mencoba lagi panggilan API, bagaimana mendapatkan pesan, kapan mengupgrade-nya. Akibatnya, penilaian bervariasi dari minggu ke minggu. Apa yang Anda dapatkan adalah volatile jika-lain per token 0.003。

Inilah saatnya: ada kode yang memanggil Claude untuk "menilai apakah atau tidak untuk mencoba lagi ketika 503 ditemui". Ini dimulai dengan baik, berlangsung dua minggu, dan kemudian tiba-tiba menjadi tidak stabil, sebagai model mulai menggunakan tubuh meminta sebagai konteksnya. Strategi ulang menjadi acak, karena prompt itu sendiri acak。

aturan 6: atur anggaran token keras tanpa pengecualian

anggaran tiap misi: 4.000 token. anggaran sesi tunggal: 30.000 token. jika mandat dekat dengan langit-langit anggaran, situasi saat ini dirangkum dan kemudian dijalankan ulang. jangan memaksa. akan lebih baik untuk jelas mengekspos masalah overruns anggaran daripada overspendmer。

CLADE.md, tanpa batasan anggaran, setara dengan cek kosong. Setiap siklus bisa kehabisan kendali dan dibuang dalam konteks 50.000 token. Model tidak menghentikan diri mereka sendiri。

Itulah saatnya: sesi debug berlangsung 90 menit. Model ini telah menelusuri kembali pesan-pesan yang keliru sekitar 8KB yang sama dan secara bertahap lupa pilihan restorasi yang telah dicoba. Pada akhirnya, ide tersebut mulai menghasilkan 40 ide yang telah saya tolak sebelumnya. Jika ada anggaran token, proses harus dihentikan dalam 12 menit。

Aturan 7: Penampakan ke konflik, bukan kompromi rata-rata

Jangan mencampur dua model yang ada di perpustakaan kode jika mereka bertentangan satu sama lain. Pilih salah satu model ini, memberikan prioritas untuk diperbarui atau lebih diuji model, membenarkan mereka dan menandai pembersihan berikutnya-atas yang lain. "Kode rata-rata" yang mencoba untuk memenuhi kedua aturan sekaligus adalah yang terburuk。

Dan ketika dua bagian dari coding berada dalam konflik, Claude akan mencoba untuk menyenangkan kedua belah pihak, dan hasilnya adalah kode tidak koheren。

Itu adalah saat ketika ada dua mode pemrosesan dalam satu perpustakaan kode, satu async / await- surplus mencoba / menangkap dan batas lain global salah. Claude menulis kode baru yang digunakan kedua set. Akibatnya, kesalahan dibuat dua kali. Butuh waktu 30 menit untuk mencari tahu mengapa kesalahan itu ditelan dua kali。

Peraturan 8: pertama baca, lalu tulis

Baca isi ekspor dari suatu dokumen, penelepon langsung, dan berbagai fungsi alat bersama yang jelas-jelas relevan sebelum menambahkan sebuah kode ke sebuah dokumen. Jika Anda tidak mengerti mengapa kode yang ada begitu terorganisir, tanyakan dulu, tidak menambahkan apa-apa langsung ke dalamnya. "Sepertinya tidak relevan bagiku" adalah frase yang paling berbahaya di perpustakaan kode。

Karpathy 's "modifikasi operasi" mengatakan Claude tidak mengubah kode yang berdekatan. Tapi itu tidak memberitahu Claude: memahami kode yang berdekatan pertama. Tanpa ini, Claude akan menulis kode baru yang konflik dengan kode yang ada di luar 30 baris。

Itu adalah saat: Claude menambahkan fungsi identik ke fungsi yang ada karena tidak membaca fungsi asli pertama. Kedua fungsi melakukan hal yang sama. Tapi karena urutan laporan, fungsi baru mencakup fungsi lama, yang telah ada selama enam bulan sebagai satu-satunya kriteria sebenarnya。

Aturan 9: Pengujian bukan pilihan, tapi pengujian bukan akhir dari dirinya sendiri

Setiap tes harus dikodekan "mengapa perilaku ini penting" dan bukan hanya "apa yang dilakukannya". Tes seperti 'getUser' .tobe ('John') 'tidak berguna jika fungsi sebenarnya menerima ID hard- kode. Jika Anda tidak dapat menulis tes yang akan gagal ketika logika bisnis berubah, fungsi itu sendiri salah。

Karpathy 's "target-orientasi eksekusi" menunjukkan bahwa pengujian dapat menjadi sukses kriteria. Tapi dalam prakteknya, Claude menggunakan kata "test pass" sebagai tujuan satu-satunya, jadi dia menulis beberapa kode yang bisa lulus tes bawah permukaan, tapi itu akan menghancurkan segala sesuatu yang lain。

Itu adalah saat: Claude menulis 12 tes untuk fungsi otentikasi, semua berlalu. Namun logika sertifikasi dalam lingkungan produksi rusak. Tes-tes hanya memeriksa bahwa fungsi "kembali ke sesuatu", bukan apakah itu kembali ke hal yang benar. fungsi diuji karena kembali konstan。

Aturan 10: Operasi yang berjalan untuk waktu yang lama memerlukan titik pemeriksaan

Dalam setiap tugas-tugas multi- langkah, ringkasan apa yang telah dilakukan, apa yang telah diuji dan apa yang tersisa adalah untuk dilakukan. Jangan turun dari negara Anda tidak dapat mengulangi kepada saya. Jika Anda menemukan diri Anda hilang, berhenti dan negara ulang saat ini。

Interaksi baku dari template Karpathy adalah satu - off. Tapi pekerjaan Claude Code sebenarnya sering multi- langkah: lebih dari 20 file, membangun fungsionalitas dalam satu sesi, selama komisi multiple debug. Jika tidak ada titik pemeriksaan dan satu langkah salah, semua kemajuan di depan mungkin hilang。

Itu adalah saat: misi rekonfigurasi 6 langkah yang salah di langkah 4. Pada saat aku tahu, Claude terus melangkah 5 dan 6 melewati negara yang salah. Jumlah total waktu yang dihabiskan untuk pembongkaran masih panjang. Jika ada titik pemeriksaan, langkah 4 akan mengungkapkan masalah。

Aturan 11: Precedence perjanjian atas inovasi

Jika perpustakaan kode menggunakan kasus ular, Anda lebih suka camelcase: menggunakan kasus ular. Jika pustaka kode menggunakan komputer berbasis kelas, dan Anda lebih suka hang: gunakan komputer berbasis kelas. Mengabaikan pandangan adalah diskusi lain. Konsistensi mengambil alih preferensi individu dalam rumah coding. Jika Anda benar-benar berpikir bahwa kesepakatan berbahaya, membuatnya jelas. Jangan membuka jalan terpisah dalam keheningan。

Claude suka memperkenalkan dirinya di perpustakaan kode yang telah didirikan dengan baik. Bahkan jika ditulis "lebih baik", memperkenalkan model kedua itu sendiri akan lebih buruk dari model tunggal。

Itu adalah saat ketika Claude memperkenalkan Hooks dalam sebuah React repositori berdasarkan komponen kelas. Ini benar-benar bisa berjalan. Tapi pada saat yang sama, itu menghancurkan model asli dari perpustakaan kode karena tes tersebut bergantung pada komputer Apakah Mount. Butuh setengah hari untuk menghapusnya dan menulis ulang。

Aturan 12: Untuk terlihat, jangan gagal diam-diam

Jika kau tidak bisa memastikan sesuatu telah dilakukan, katakan dengan jelas. Jika 30 catatan yang melompat diam-diam, tidak bisa dikatakan bahwa migrasi selesai. Jika Anda melewatkan tes apapun, Anda tidak bisa mengatakan "tes berlalu". Jika Anda belum memverifikasi batas-batas yang saya minta, Anda tidak bisa mengatakan "fungsional". Paparan dasar ketidakpastian, bukan menyembunyikannya。

Kegagalan paling mahal Claude, seringkali mereka yang terlihat seperti sukses. Sebuah fungsi "dapat berjalan", tapi mengembalikan data yang salah; migrasi "selesai" tetapi melewati 30 catatan; dan tes "lulus" hanya karena pernyataan itu sendiri salah。

Ini adalah saat ketika Claude mengatakan migrasi basis data adalah "sukses". Tetapi kenyataannya, itu hilang diam-diam melewati catatan 14 persen yang memicu konflik mengikat. Melewati dicatat dalam log tanpa secara eksplisit terkena. Sebelas hari kemudian, ketika laporan data mulai padam, kami menemukan masalah。

Hasil data

Dalam enam minggu, aku melacak kelompok yang sama dari 50 misi perwakilan, meliputi 30 perpustakaan kode dan pengujian tiga konfigurasi。

Tingkat kesalahan berarti bahwa misi perlu diperbaiki atau ditulis ulang untuk mencocokkan maksud asli. Kesalahan termasuk: asumsi kesalahan diam, over- rekayasa, kerusakan yang tidak terganggu, kegagalan diam, pelanggaran perjanjian, konflik kompromi, dan pos pemeriksaan hilang。

Tingkat kepatuhan mengacu pada kemungkinan bahwa ketika aturan diterapkan, aplikasi Claude akan jelas。

Hasil yang benar-benar menarik bukan hanya bahwa tingkat kesalahan menurun dari 41% menjadi 3%. Lebih penting lagi, ekstensi aturan 4 untuk memerintah 12 hampir tidak meningkatkan beban kepatuhan, dengan tingkat kepatuhan menurun dari 78 persen ke 76 persen, tetapi laju kesalahan menurun dengan 8 persen. Aturan baru mencakup model gagal yang tidak ditangani oleh 4 aturan asli, dan mereka tidak bersaing untuk anggaran perhatian yang sama。

Dimana akan Karpathy templat diam-diam gagal

Bahkan tanpa aturan baru, 4 aturan template asli tidak cukup di setidaknya 4 tempat。

Pertama, jalankan tugas Agen untuk waktu yang lama。
Karpathy 's aturan terutama untuk Claude saat ia menulis kode. Tapi apa yang terjadi ketika Claude menjalankan pipa multistep? Templat asli tidak memiliki aturan anggaran, tidak ada aturan titik cek dan tidak ada aturan "menunjukkan kegagalan". Jadi Pipeline akan perlahan melayang。

Kedua, multi- kode perpustakaan konsistensi。
Hanya ada satu gaya secara default. Tapi dalam layanan 12 Monorepo, Claude harus memilih gaya mana yang cocok. Aturan asli tidak mengatakan bagaimana memilih. Jadi ini dipilih secara acak atau mencampurkan beberapa gaya。

Ketiga, kualitas tes。
"Target-berorientasi implementasi" akan melihat "tes berlalu" sebagai sukses, tanpa mengatakan bahwa tes itu sendiri harus berarti. Akibatnya, Claude menulis beberapa tes yang hampir tidak diverifikasi, tapi mereka membuatnya berpikir dia yakin。

Keempat, perbedaan antara lingkungan produksi dan fase prototipe。
Aturan yang sama akan mencegah berlebihan-rekayasa kode produksi, tetapi juga bisa memperlambat pembangunan prototipe. Karena fase prototipe kadang-kadang membutuhkan 100 baris scaffolding eksplorasi, pertama mencari arah. Karpathy "prioritas yang disederhanakan" terlalu mudah dipicu oleh kode awal。

Ini delapan aturan baru tidak dimaksudkan untuk menggantikan asli empat aturan Karpathy, tetapi mengisi kesenjangan mereka: Templat asli mengacu pada adegan penulisan kode otomatis pada bulan Januari 2026; pada Mei 2026, Claude Code telah memasuki sebuah lingkungan kolaboratif multi- langkah, multi- kode, yang memiliki masalah yang berbeda。

Apa yang tidak berhasil

Saya juga mencoba beberapa pilihan lain sebelum menyelesaikan 12 aturan。

Tambahkan aturan yang kulihat di Reddit / X。
Kebanyakan dari mereka, baik mengulang empat aturan asli Karpathy dalam istilah yang berbeda atau field- aturan spesifik yang tidak dapat diregeneralisasi, seperti "selalu menggunakan kelas tailwind". Mereka semua dihapus。

Lebih dari 12。
Aku diuji sampai 18. Setelah melampaui 14 artikel, tingkat kepatuhan jatuh dari 76% menjadi 52%. Langit-langit garis nyata. Lebih dari itu, Claude akan mulai mencocokkan pola dengan "aturan di sini" daripada aturan aturan sebenarnya。

Aturan yang bergantung pada keberadaan alat tertentu。
sebagai contoh, "always use eslint", sebuah aturan yang lapses ketika tidak ada eslint terpasang dalam projek. lalu saya mengubahnya menjadi sebuah ekspresi yang tidak tergantung pada alat tertentu, seperti "use eslint" daripada "followed an enforced style in the code library"。

Gunakan contoh di CLAUDEMD bukan aturan。
Contoh adalah lebih konteks daripada aturan. Konteks di mana ketiga contoh tersebut dikonsumsi hampir sama dengan 10 aturan, dan Claude dapat dengan mudah membanjiri contoh. Aturan abstrak dan contoh yang spesifik. Aturan harus digunakan。

Hati-hati, berpikir dengan hati-hati, dan lebih fokus。
Ini adalah suara. Tingkat kepatuhan untuk arah tersebut jatuh ke sekitar 30 persen karena mereka tidak bisa diuji. Lalu aku menggantinya dengan aturan perintah yang lebih spesifik, seperti "asumsi tertentu"。

Beritahu Claude untuk bertindak seperti seorang insinyur senior。
Ini tidak bekerja. Claude merasa seperti seorang insinyur senior. Pertanyaan sebenarnya adalah bukan apakah ia percaya bahwa, tetapi apakah hal itu diterapkan dengan cara itu. Aturan perintah dapat mempersempit kesenjangan ini, dan bukan tips identitas。

Penguasa penuh 12

Berikut ini adalah versi lengkap yang dapat digunakan untuk menempel langsung。

Tidak dapat menampilkan ini di luar dokumen flybook

Simpan sebagai CLAUDEMD di direktori root gudang. Di bawah aturan ini, tambahkan aturan terpisah untuk item seperti tumpukan teknologi, perintah tes, pola kesalahan, dll. Jangan melampaui 200 baris secara keseluruhan. Setelah itu, akan ada penurunan ditandai dalam kepatuhan。

Cara Pasang

Dua langkah sudah cukup:

Tambahkan empat aturan dasar Karpathy ke CLAUDEMD Anda
curl https: / / ra--githubuserconcet.com / forreschange / andrej-karpaty-skills / main / CLAUDE.md & gt; & gt; CLAUDE.md


2. Tempel aturan 5-12 di bawah ini

Simpan berkas dalam direktori root repositori. Here 's the & gt; & gt; which is important to add to the exclusive CLAUDEMD, rather than exclusive the rules you have written。

Model mental

CLUDEMD bukan daftar keinginan, tetapi sebuah kontrak perilaku untuk memblokir pola spesifik kegagalan yang telah anda amati。

Setiap aturan harus menjawab pertanyaan: apa yang bisa mencegah

Aturan keempat Karpathy adalah menjaga diri dari pola kegagalan yang dilihatnya pada bulan Januari 2026: asumsi diam, berlebihan rekayasa, vandalisme, kriteria keberhasilan yang lemah. Mereka pondasinya, jangan lewatkan。

Saya menambahkan aturan baru dari delapan untuk berjaga-jaga melawan munculnya pola kegagalan baru setelah Mei 2026: unbudgeted Agen loop, misi multi- langkah tanpa pos pemeriksaan, tes yang tampaknya telah diuji tapi yang tidak benar-benar mendeteksi logika kritis, dan pertanyaan tentang paket kegagalan diam menjadi sukses diam. Ini adalah incremental patch。

tentu saja, efeknya bervariasi dari orang ke orang. jika anda tidak menjalankan beberapa langkah, aturan 10 kurang penting bagi anda. jika perpustakaan kode anda hanya satu gaya seragam dan telah dipaksa oleh int, aturan 11 adalah berlebihan. setelah membaca 12 artikel, simpan aturan yang benar-benar menyesatkanmu dan hapus sisanya。

Sebuah versi enam kuasa. dari CLUDEMD, disesuaikan dengan pola kegagalan sejati, melebihi angka dua belas aturan versi enam yang tidak pernah Anda gunakan。

Menggabungkan komentar

Tweet Karpathy pada bulan Januari 2026 pada dasarnya merupakan keluhan. Forrest Chang mengubahnya menjadi empat aturan. Akhirnya, 120.000 pengembang memberikan hasil untuk Star. Dan kebanyakan dari mereka masih menggunakan empat aturan tersebut saat ini。

Model telah maju dan ekologi telah berubah. Multistep Agent, hook-up pemicu rantai, beban keterampilan, multi- kode kolaborasi perpustakaan - Tidak satupun dari ini ada ketika Karpathy menulis tweet itu. 4 aturan asli tidak mengatasi masalah tersebut. Mereka tidak salah, tapi tidak lengkap。

Peraturan baru 8. 6 minggu, lebih dari 30 perpustakaan kode. Tingkat galat menurun dari 41% menjadi 3%。

Artikel ini akan dikumpulkan malam ini untuk menempelkan 12 aturan ini ke dalam CLAUDEMd. Anda Jika itu membantumu berjalan seminggu tanpa Claude membungkuk, selamat datang。

[Terkekeh]Tautan Asli]

QQlink

암호화 백도어 없음, 타협 없음. 블록체인 기술 기반의 탈중앙화 소셜 및 금융 플랫폼으로, 사용자에게 프라이버시와 자유를 돌려줍니다.

© 2024 QQlink R&D 팀. 모든 권리 보유.