Claude는 항상 실수를합니까? 이 12 규칙은 3%까지 오류율을 가져옵니다
41%에서 3%까지, Karpathy의 4개의 규칙은 충분하지 않습니다

원래 제목: Karpathy의 4 CLAUDE.md 규칙은 41%에서 11%에 Claude 영화를 잘라
원본: @Mnilax
Peggy Block Beats의 사진
편집기 프레스 : 1 월 2026에서 Andrej Karpathy는 Claude의 쓰기 코드에 대한 분열은 AI 프로그래밍 워크플로우에 매우 중요한 문서로 이끌었습니다. CLAUDE.md. Forrest Chang은 이러한 문제를 4 가지 규칙으로 구성하고, Claude가 보통 코딩 할 때 오류를 제한하려고합니다. 침묵 hypotheses, over-engineering, 부상과 관련된 코드와 명확한 성공 기준의 부족。
몇 달 후, Claude Code는 더 이상 "모델은 코드를 작성합니다." 다단계 대리인으로, 호크 사슬 방아쇠, 기술 선적 및 다 부호 도서관 협력은 정상적인, 실패의 새로운 모형이 시작되기 시작합니다: 모형은 긴 임무에 있는 통제에서, 입증 통행은 정통 논리 없이, 이동 행해집니다 그러나 과실을 통해서 침묵하게 하고, 다른 부호 작풍은 mismixed。
이 문서의 저자는 6 주 이내에 30 코드 라이브러리를 테스트했으며 Karpathy의 원래 4 규칙에 8 가지 새로운 규칙을 추가하여 단일 완료부터 에이전트 협업으로 AI 프로그래밍의 새로운 문제를 다룹니다。
다음은 원본 텍스트입니다:
1 월 2026에서 늦은 Andrej Karpathy는 tweet 문자열을 보냈습니다. Claude의 코드를 작성하는 방법. 그는 세 가지 전형적인 문제로 지적했다 : 설명, 과도한 복잡성 및 변경되지 않은 코드와 관련된 손해。
Forrest Chang은이 트윗 문자열을 보았으며, 별도의 CLAUDE.md 파일을 입력하고 GitHub에 게시했습니다. 프로젝트의 첫날에는 5,828 스타가 인수되었으며, 2 주에 60,000 번 수집했으며 오늘 120,000 스타가 있으며, 2026 년 가장 빠르게 성장하는 단일 파일 코드 창고가 있습니다。

그리고 6 주 안에, 나는 30의 부호 도서관에서 그것을 시험했습니다。
이 규칙은 실제로 유효합니다. 과거에, 오류의 확률의 약 40 %는이 규칙에 맞는 작업의 3 % 미만으로 떨어졌다. 그러나 문제는이 템플릿은 원래 Claude가 코드를 썼을 때 1 월에 오류를 해결하도록 설계되었습니다。
5월 2026일, Claude Code가 직면한 생태적 문제는 다음과 같습니다. 에이전트, Hook chain 방아쇠, 기술 로드 충돌, 멀티 스텝 워크플로우의 붕괴。
그래서 나는 더 8 가지 규칙을 추가했습니다. CLUDE.md : 왜 참여하는 모든 규칙이며 원래 Karpathy 템플릿이 4 개 장소에서 조용히 유효합니까。
설명을 건너뛰고 싶다면 직접 복사하고 텍스트의 끝에 전체 파일을 남길 수 있습니다。
왜이 중요한가
Claude Code's CLUDE.md는 AI 프로그래밍 기술 볼트에서 가장 추정된 문서입니다. 대부분의 개발자는 일반적으로 3 종류의 실수를 만듭니다
첫째, 쓰레기로 가져갈 수 있으며 모든 습관을 그대로 채울 수 있으며 4000 개 이상의 토큰을 확장하고 준수 속도를 30 %로 늘립니다。
둘째, 당신은 전혀 할 필요가 없습니다. 이것은 세션 사이에 일관성의 5 배 토큰 낭비 및 부족으로 인한 것입니다。
세 번째, 템플릿을 복사 한 후, 더 이상 중요하지 않습니다. 그것은 2 주 동안 작동 할 수 있지만 코딩 라이브러리의 변경으로 지식없이 실패합니다。
Anthropic 공식 문서는 매우 명확합니다: CLAUDE.md는 근본적으로 권고입니다. Claude는 그것을 따르는 시간의 약 80%가 있을 것입니다. 200 개 이상의 라인이 완료되면 준수 비율이 크게 줄어듭니다. 중요한 규칙은 소음으로 홍수됩니다。
Karpathy 템플릿은 문제를 해결했습니다. 한 문서, 65 라인, 4 규칙. 이것은 최소 벤치 마크입니다。
그러나 천장은 더 높을 수 있었습니다. 다음 8 가지 규칙을 추가 한 후, Karpathy가 1 월 2026에 대해 불평하는 코드 쓰기 문제뿐만 아니라 5 월 2026에 불과한 에이전트 조직 문제 - 원본 템플릿이 작성되었을 때 존재하지 않은 문제。
Original 4 규칙
Forrest Chang의 창고를 본 적이 없다면이 기본 버전을 살펴보십시오
규칙 1: 코딩 전에 생각。
가정을 만들지 마십시오. 당신의 hypothesis를 설명하기 위해, 무역 떨어져 노출. speculation의 앞에 질문. 간단한 옵션이 존재하는 경우, 객체는 자신의 이니셔티브에 제기됩니다。
규칙 2: 간단한 우선권。
문제를 해결하는 최소 코드를 사용합니다. 상상된 기능에 추가하지 마십시오. 한 번 코드를 위한 추상 레이어를 설계하지 마십시오. 수석 엔지니어가 너무 복잡하다고 생각한다면, 단순해야합니다。
규칙 3 : 외과 수정。
변경되는 분만. "optimise" neighbouring 코드, 노트 또는 형식이 없습니다. 깨지지 않는 것들을 재구성하지 마십시오. 현재 스타일로 유지하십시오。
규칙 4: 목표 지향적인 구현。
성공에 대한 기준을 설정하고 유효성 검사가 완료 될 때까지 시간을 반복합니다. 모든 단계를 수행 할 Claude에게 말하지 마십시오. 그러나 성공과 같은 것이 무엇인지 말해주고 그것에게 이기적인 것을 만드십시오。
그리고 내가 보이지 않는 클로드 코드 대화에서 본이 4 규칙은 실패 패턴의 약 40 %였다. 문제의 나머지 60 %는 아래의이 빈 영역에 숨겨져 있습니다。

내 새로운 8 규칙, 왜
각 규칙은 실제 순간에서 온다 : Karpathy의 원래 4 규칙은 더 이상 충분하지 않습니다. 나는 장면을 시작, 그때 나는 당신에게 대응 규칙을 줄 것이다。
규칙 5 : 모델이 비-linguistic 작업을하지 마십시오
Claude는 프로세스에 사용될 수 있습니다: 분류, 초안, 요약, unstructured 원본에서 정보를 추출. Claude 처리를 사용하지 마십시오: 경로, 재시험, 상태 코드 처리, 특정 변환. 상태 코드가 질문에 답한 경우, 정상적인 코드가 질문에 답합니다。
Karpathy의 규칙은 이것을 커버하지 않습니다. 이 모델은 특정 코드에 의해 주소 된 문제의 일부를 결정하기 시작했습니다. API 호출을 다시 시도 할 것인지, 메시지를 얻는 방법, 업그레이드 할 때. 그 결과, 판단은 주에서 주에 따라 달라집니다. 토큰 당 휘발성 if-else는 무엇입니까 0.003。
이것은 순간이다 : 503이 발생했을 때 다시 시도하지 않는 "지난 여부를 판단 할 수있는 코드가 있습니다." 그것은 잘 시작, 2 주 지속, 그리고 그 후 갑자기 불안하게되었다, 모델은 요청 신체를 사용하기 시작했다. 리트리 전략은 무작위이기 때문에, 프롬프트 자체가 무작위이기 때문입니다。
규칙 6 : 예외없이 하드 토큰 예산을 설정
개별 임무 예산 : 4,000 토큰. 단일 세션 예산 : 30,000 토큰. mandate가 예산 천장에 닫으면 현재 상황은 요약되고 재시작됩니다. 하지 않습니다. 명확하게 overspendmmer보다 예산 오버런의 문제를 노출하는 것이 좋습니다。
CLADE.md, 예산 제약없이, 빈 체크와 동일합니다. 각 주기는 통제에서 실행되고 50,000의 토큰의 맥락에서 덤프될 수 있었습니다. 모델은 스스로 멈추지 않습니다。
그 순간이었다: 디버그 세션은 90 분 지속. 모델은 같은 8KB 주변의 적성 메시지를 다시 추적하고 점차적으로 회복 옵션이 시도 한 것을 잊지. 하루 말에, 나는 전에 거부 한 40 아이디어를 생성 시작. 토큰 예산이 있다면, 프로세스는 12 분에 종료해야합니다。
규칙 7 : 충돌에 노출, 평균 타협하지
코드 라이브러리에서 두 개의 기존 모델을 섞지 마십시오. 이 모델 중 하나를 선택, 업데이트 또는 더 많은 테스트 모델에 우선 순위를 부여, 그냥 그와 다른의 후속 정리 표시. 한 번에 규칙의 두 세트를 충족하는 "평균 코드"는 최악입니다。
그리고 코딩의 두 부분이 충돌에있을 때, Claude는 양측을 기쁘게하려고합니다, 그리고 결과는 incoherent 부호입니다。
그 순간에는 하나의 코드 라이브러리에서 두 개의 오류 처리 모드가있을 때, 하나의 async/await-surplus try/catch 및 기타 글로벌 잘못된 국경. Claude는 두 세트를 사용하는 새로운 코드를 썼습니다. 결과적으로 오류가 두 번되었습니다. 왜 실수가 두 번 삼키는지 알아내는 30 분이 걸렸습니다。
규칙 8 : 먼저 읽고, 다음 쓰기
문서의 수출 내용을 읽고, 직접 콜러, 그리고 문서에 코드를 추가하기 전에 명확하게 관련 공유 도구 기능. 기존 코드가 왜 조직되었는지 이해하지 않으면 먼저 묻지 마십시오. "그것은 나에게 불평"은 코드 라이브러리에서 가장 위험한 구문입니다。
Karpathy의 "재활 수정"은 Claude에게 인접한 코드를 변경하지 말했습니다. 그러나 Claude를 말하지 않았습니다. 인접한 코드를 먼저 이해하십시오. 이 없으면 Claude는 30 개 이상의 라인과 기존 코드와 충돌하는 새로운 코드를 작성합니다。
그 순간이었다 : Claude는 원래 함수를 처음 읽지 않았기 때문에 기존 함수에 동일한 기능을 추가했습니다. 두 함수는 같은 일을 합니다. 그러나 보고서의 순서 때문에, 새로운 기능은 사실에 있는 유일한 criterion로 6 달 동안 존재한 오래된 기능을 포함합니다。
규칙 9 : 테스트는 옵션이 아니지만 테스트는 자체에 끝이 아닙니다
각 시험은 "왜이 행동이 중요하다"라고 코딩하고 "무엇이다." `getUser'.tobe (`John')와 같은 테스트는 실제로 하드 코딩 ID를받습니다. 사업 논리가 변경 될 때 실패한 테스트를 작성할 수 없다면, 함수 자체가 잘못됩니다。
Karpathy의 "target-centric exec"는 테스트가 성공 크리에이터가 될 수 있음을 제안합니다. 그러나 실제로, Claude는 그의 유일한 목표로 단어 "테스트 패스"를 사용했습니다. 그래서 그녀는 subsurface 테스트를 통과 할 수있는 몇 가지 코드를 썼지만 다른 모든 것을 파괴 할 것입니다。
그 순간이었다 : Claude는 인증 기능에 대한 12 테스트를 썼다, 모든 통과. 그러나 생산 환경에 있는 증명서 논리는 부서집니다. 이러한 테스트는 "무엇을 잃지 않는"기능이 올바른 일에 반환되지 않도록 검사합니다. 함수는 일정한 반환 때문에 시험됩니다。
규칙 10: 장시간 동안 달리는 가동은 점 검사를 요구합니다
다단계 작업의 각에서, 무슨 일이 행해졌는지, 무슨 일이 시험되고 무슨 일이 행해집니다. 나에 반복 할 수없는 상태에서 이동하지 마십시오. 잃어버린 경우, 중지 및 현재 상태를 복원。
Karpathy 템플릿의 기본 상호 작용은 원오프입니다. 그러나 실제 클로드 코드 작업은 종종 멀티 스텝입니다 : 20 파일 이상, 여러 개의 커미션 디버깅을 통해 하나의 세션에서 기능을 구축합니다. 체크 포인트가 없으면 한 단계가 잘못되어 모든 진행 상황을 잃을 수 있습니다。
그 순간이었다: 6 단계 재구성 임무는 4 단계에 잘못되었다. 내가 발견 한 때, Claude는 잘못된 상태에 5 및 6 단계를 계속했다. dismantling 수리에 소요되는 총 시간은 여전히 길다. 체크 포인트가있는 경우, 4 단계는 문제를 밝혀줍니다。
규칙 11 : 혁신에 대한 계약의 전제
코드 라이브러리가 뱀 케이스를 사용한다면, camelcase를 선호합니다. 뱀 케이스를 사용합니다. 코드 라이브러리가 클래스 기반 컴퓨터를 사용하고 있다면, 다음을 사용하여 클래스 기반 컴퓨터를 사용합니다. 다른 토론이었다. Consistency는 코딩 하우스 내에서 개별 선호도를 초과합니다. 계약이 유해하다고 생각하면 명확하게 만듭니다. 침묵의 분할 경로를 열지 마십시오。
Claude는 잘 설치된 코드 라이브러리에서 자신을 소개하는 것을 좋아합니다. 두 번째 모델 자체를 소개하는 "더 나은"이라고 작성한 경우에도 단일 모델보다 더 나아질 것입니다。
Claude가 클래스 컴포넌트를 기반으로 React 저장소에 Hook을 도입했을 때 그 순간이었습니다. 정말 실행할 수 있습니다. 그러나 동시에, 그것은 그 테스트가 컴퓨터에 의존했기 때문에 코드 라이브러리의 원래 테스트 모델을 파괴했다. 그것을 삭제하고 다시 씁니다。
규칙 12 : 가시려면 조용히 실패하지 마십시오
뭔가를 할 수 없다면 명확하게 말하십시오. 30 레코드가 조용히 점프 된 경우 마이그레이션이 완료 된 것이라고 말했다. 어떤 테스트를 건너뛰면, "test passed"라고 말할 수 없습니다. 내가 요청한 경계를 확인하지 않은 경우, "기능"을 말할 수 없습니다. uncertainty에 기본 노출은, 그것을 숨길。
Claude의 가장 비싼 실패, 종종 성공처럼 보이는. 함수 "을 실행할 수 있습니다", 하지만 잘못된 데이터를 반환; 마이그레이션 "완료" 하지만 건너 뛰기 30 기록; 그리고 테스트 "수입" 단순히 assertion 자체가 잘못되었기 때문에。
Claude가 데이터베이스 마이그레이션이 "successful"이라고 말했다. 그러나 사실, 그것은 침묵의 충돌을 트리거 14 %의 기록에서 조용히 사라졌다. Skipping은 명시적으로 노출되지 않고 로그에 기록되었습니다. Eleven 일 후, 보고서 데이터가 시작될 때, 우리는 문제를 발견했습니다。
데이터 결과
6 주 안에, 나는 30의 부호 라이브러리를 덮고 3개의 윤곽을 시험하는 50명의 대표자 임무의 동일한 그룹을 추적했습니다。

오류율은 임무가 정정되거나 재결합되어야한다는 것을 의미한다. 오류 포함 : 침묵 오류 가정, over-engineering, undisturbed 손상, 침묵 장애, 계약 위반, 분쟁 손상 및 누락 된 체크 포인트。
규제율은 규칙이 적용 될 때 확률을 나타냅니다. Claude 's application은 분명합니다。
실제 흥미로운 결과는 단지 오류율이 41%에서 3%로 떨어졌다. 더 중요하게, 규칙 4의 연장은 12를 단단히 증가시키기 위하여 규칙의 짐, 78 퍼센트에서 76 퍼센트에 감소하는 수락 비율과 더불어, 그러나 8 비율 점에 의해 감소된 과실 비율. 새로운 규칙 덮개는 원래 4 규칙에 의해 해결되지 않은 모델에 실패, 그들은 같은 관심 예산에 경쟁하지 않습니다。

Karpathy 템플릿이 조용히 실패합니까
새로운 규칙없이, 원래 4 규칙 템플릿은 적어도 4 곳에서 충분하지 않았습니다。
첫째, 긴 시간 동안 에이전트 작업을 실행。
Karpathy의 규칙은 주로 Claude에 대한 순간 그는 코드를 작성하고 있습니다. 그러나 Claude가 다단계 파이프라인을 실행할 때 무슨 일이 일어나는가? 원래 템플릿은 예산 규칙이 없었다, 체크 포인트 규칙과 "쇼 실패" 규칙. 그래서 파이프라인은 천천히 drift。
둘째, 다중 코드 라이브러리 일관성。
기본적으로 하나의 스타일이 있습니다. 그러나 12-service monorepo에서, Claude는 어떤 스타일이 일치하도록 선택했다. 원래 규칙은 그것을 선택하는 방법을 알려지지 않았습니다. 그래서 그것은 무작위로 선택, 또는 그것은 몇 가지 스타일을 섞는다。
셋째, 시험 질。
"Target-centric Implement"는 테스트 자체가 의미해야한다고 말하지 않고 "test passed"의 성공을 볼 것입니다. 결과적으로, Claude는 거의 비난 한 몇 가지 테스트를 썼다, 그러나 그들은 그를 생각했다。
제 4, 생산 환경과 시제품 단계의 차이。
동일한 규칙은 생산 부호의 overengineering를 방지할 것입니다, 그러나 또한 시제품의 발달을 느리게 할 수 있었습니다. 시제품 단계는 때때로 100개의 선을, 방향을 찾는 첫번째 요구합니다. Karpathy의 "간단한 우선"은 초기 코드에 의해 쉽게 트리거됩니다。
이 8 가지 새로운 규칙은 Karpathy의 원래 4 가지 규칙을 대체하기위한 것이 아니라 그들의 격차를 채우기위한 것입니다. 원본 템플릿은 1 월 2026에서 자동 완성 된 코드 쓰기 장면에 해당합니다. 5 월 2026에 의해 Claude Code는 에이전트 구동, 멀티 스텝, 멀티 코드 저장소 협업 환경에 입력했습니다. 다른 문제가 있습니다。

일하지 않았다
나는 또한 12 규칙을 최종화하기 전에 다른 옵션을 시도했다。
Reddit / X에서 나는 규칙을 추가합니다。
그들 중 대부분은 다른 용어에서 Karpathy의 원래 4 가지 규칙을 반복하거나 "꼬리 클래스의 통로 사용"과 같은 일반화 될 수없는 필드 별 규칙입니다. 그들은 모두 삭제되었습니다。
12 이상。
나는 18까지 시험했습니다. 14개의 기사를 초과한 후에, 수락 비율은 76%에서 52%에 떨어졌습니다. 라인 천장은 현실입니다. 그 이상, Claude는 실제 규칙에 의해 규칙의 대신 "rules here"와 패턴을 일치하기 시작합니다。
특정 도구의 존재에 의존하는 규칙。
예를 들어, "always use eslint", eslint가 프로젝트에 설치되지 않을 때의 규칙. 그런 다음 "use eslint"와 같은 특정 도구에 의존하지 않은 표현으로 변경됩니다. 대신 "코드 라이브러리에서 시행 된 스타일."。
규칙 대신 CLAUDE.md의 예를 사용하십시오。
예제는 규칙보다 더 많은 컨텍스트입니다. 세 가지 예가 소모되는 상황은 10 규칙과 거의 동일하며 Claude는 쉽게 예를 압도 할 수 있습니다. 규칙은 추상적이며 예는 특정합니다. 규칙은 따라서 사용되어야 합니다。
조심하고, 조심스럽게 생각하고, 더 많은 초점을。
이것은 소음입니다. 이러한 지침에 대한 준수 비율은 테스트 할 수 없기 때문에 약 30 퍼센트로 떨어졌다. 그런 다음 "specify assumptions"와 같은 더 구체적인 명령 규칙으로 교체했습니다。
수석 엔지니어처럼 행동하는 Claude를 말하십시오。
그것은 작동하지 않습니다. Claude는 수석 엔지니어처럼 느꼈다. 실제 질문은 그것이 믿는지 여부는 아니지만 그 방법으로 구현되는지 여부. 명령 규칙은 이 간격을 좁힐 수 있으며 정체성 팁이 없습니다。
전체 12 통치자
다음은 직접 붙여넣기에 사용할 수있는 완벽한 버전입니다。
Flybook 문서 밖에서 표시할 수 없습니다
창고 루트 디렉토리에서 CLAUDE.md로 저장하십시오. 이 규칙의 밑에, 기술 더미 시험 순서, 과실 본, 등과 같은 품목을 위한 분리한 규칙을 추가하십시오. 200개의 선을 전체로 초과하지 마십시오. 그 후, 준수에 표시된 감소가 될 것입니다。
설치 방법
두 단계는 충분합니다:
당신의 CLAUDE.md에 Karpathy의 4 가지 기본 규칙을 추가
컬 https://raw.githubusercontent.com/forrestchange/andrej-karpathy-skills/main/CLAUDE.md > > CLAUDE.md
2. 규칙을 붙여 5-12 아래
저장소 루트 디렉토리에 파일을 저장합니다. 여기 > >;; 기존 CLAUDE.md에 추가하는 것이 중요하다, 오히려 당신이 작성한 독점적 인 규칙을 압도。
Mental 모형
CLUDE.md는 소원의 목록이 아니지만, 당신이 관찰 한 실패의 특정 패턴을 차단하는 행위의 계약이 아닙니다。
각 규칙은 질문에 대답해야합니다 : 어떻게 예방 할 수 있습니까
Karpathy의 네 번째 규칙은 1 월 2026에서 본 실패의 패턴에 대해 감시했다 : 침묵 가정, over-engineering, vandalism, 약한 성공 기준. 그들은 기초, 건너뛰지 않습니다。
나는 5 월 2026 이후 실패의 새로운 패턴의 출현에 대해 감시하기 위해 8의 새로운 규칙을 추가했습니다 : 불확실한 에이전트 루프, 체크 포인트없이 멀티 스텝 임무, 테스트되었지만 실제로 중요한 논리를 감지하지 않는 테스트, 그리고 침묵하는 성공으로 포장 침묵 장애의 질문. 그들은 incremental 패치입니다。
물론, 효과는 사람마다 다릅니다. 여러 단계를 실행하지 않는 경우 규칙 10은 당신에게 덜 중요합니다. 코드 라이브러리는 하나의 획일한 스타일이며 int에 의해 시행되고, 규칙 11은 중복됩니다. 12 기사를 읽은 후, 정말 당신을 잘못하고 나머지를 삭제하는 규칙을 유지합니다。
CLUDE.md의 6-ruled 버전은, 진정한 실패 패턴에 맞게, 6 개의 12-rule 버전이 사용되지 않습니다。
관련 상품
Karpathy의 트윗은 1 월 2026에서 근본적으로 불평했다. Forrest Chang은 4 가지 규칙으로 바뀌었습니다. Eventually, 120,000 개발자는 스타에 결과를주었습니다. 그들 중 대부분은 여전히 그 4 규칙을 오늘 사용하고 있습니다。
모델은 고급 및 생태가 변경되었습니다. Multistep Agent, 후크 업 체인 트리거, 기술 로드, 멀티 코드 라이브러리 협업 - Karpathy가 트윗을 썼을 때 아무도 존재. 원래 4 규칙은 그 문제를 해결하지 않았다. 그들은 잘못되지 않지만 불완전합니다。
새로운 규칙 8. 6 주, 30 코드 라이브러리 이상. 오류율은 41%에서 3%로 감소했습니다。
이 문서는이 12 규칙을 CLAUDE.md에 붙여 넣기 위해 밤새 수집됩니다. 일주일을 걸으면 Claude bends, 오신 것을 환영합니다。
[ 척 ]원본 링크]
