[Claude Code] AI 실수를 줄이는 법, 하네스 엔지니어링 정리

1. 도입부 (Introduction)

현대 소프트웨어 개발 환경에서 대형 언어 모델(LLM)과 AI 코딩 비서의 도입은 생산성의 기준을 완전히 바꾸어 놓았다. 많은 개발자가 터미널이나 에디터에서 AI에게 원하는 기능만 텍스트로 설명하면, 순식간에 복잡한 아키텍처를 설계하고 완성형 코드를 출력해 준다. 그러나 동일한 Anthropic Claude 모델을 사용함에도 불구하고, 누군가는 단 몇 초 만에 완벽하게 작동하는 실제 소프트웨어를 빌드해내는 반면, 다른 누군가는 AI가 뱉어내는 버그 섞인 코드를 디버깅하느라 하루를 통째로 날리곤 한다.

이러한 극단적인 생산성 차이는 단순히 프롬프트 몇 줄을 예쁘게 쓰는 '프롬프트 엔지니어링' 수준의 문제가 아니다. 그 본질은 인공지능이 무한한 자율성을 가졌을 때 시스템을 파괴하지 않고 정확한 선로 위를 달릴 수 있도록 구축해 둔 통제 환경, 즉 '하네스(Harness)'의 유무에 달려 있다.

공부를 거듭하고 실무에 AI 에이전트를 투입할수록 절감하는 사실이지만, AI 시대의 시니어 백엔드 엔지니어는 단순히 코드를 타이핑하는 사람을 넘어 AI가 마음껏 일하되 절대로 선을 넘지 못하게 만드는 '하네스 엔지니어(Harness Engineer)'가 되어야 한다.

2. 주요 특징 및 핵심 로직 (Main Features & Logic)

하네스(Harness)의 정의와 아키텍처적 개념

원래 하네스(Harness)의 사전적 의미는 야생마에게 씌우는 '고삐나 마구' 혹은 암벽 등반이나 번지점프를 할 때 몸을 안전하게 고정해 주는 '안전벨트'를 뜻한다. 소프트웨어 공학에서의 하네스 역시 시스템의 한 영역이나 코드 단위가 격리된 채 안전하게 테스트되고 제어될 수 있도록 둘러싸는 가상의 통제 환경을 의미한다.

이를 AI 에이전틱 코딩 환경으로 확장하면 다음과 같이 명확히 정의할 수 있다.

하네스 엔지니어링 (Harness Engineering) AI 에이전트가 오작동하지 않고 오직 약속된 최적의 경로로만 자율 주행할 수 있도록 프로젝트 내부에 수립하는 '통제 인프라 및 메타 규약 제어 기법'

아무런 가이드나 제약이 없는 열린 터미널 환경에 AI를 던져두면, 컨텍스트가 쉽게 오염되거나 예기치 못한 부작용(Side Effect)으로 인해 기존 코드가 깨지기 일쑤다. 하네스 엔지니어링은 AI 에이전트를 물리적, 시스템적으로 제약하여 생각의 범위를 좁히고 행동 경로를 획기적으로 일관성 있게 만든다.

하네스는 한 번 짜고 방치하는 정적인 파일이 아니다. AI가 세션에 진입하는 순간부터 코드를 수정하고, 테스트를 가동하며, 사용자에게 승인을 구하는 전 과정(Lifecycle)에서 실시간으로 개입하는 다단계 필터 아키텍처다. 이 6가지 레이어가 유기적으로 조화를 이루어야만 비로소 AI의 생각 예산이 유실되지 않고 시스템의 무결성이 영구 보존된다.

3. 상세 가이드 및 심층 분석 (Detailed Guide)

3.1 Anthropic의 실증 벤치마크: 레트로 게임 메이커 실험

Anthropic 개발 팀은 하네스의 실질적인 생산성 가치를 측정하기 위해, Claude Code 에이전트에게 바닥부터 실제 작동하는 레트로 스코어 게임을 직접 빌드하도록 지시하는 실험을 진행했다. 하네스가 완벽히 부재한 상태와 하네스 아키텍처가 철저히 갖춰진 환경에서의 실험 지표는 매우 충격적인 대조를 보여준다.

평가 및 비용 지표	하네스가 없는 야생 환경 (No Harness)	하네스 통제 인프라 적용 환경 (With Harness)
소요 시간	20분 (무한 루프 및 시행착오 반복)	2분 (명확한 가이드로 일사천리 진행)
소모 토큰 비용	$9 (컨텍스트 오염으로 불필요한 토큰 낭비)	$0.1 (사고 예산 최적화로 비용 최소화)
최종 결과물	캐릭터는 화면에 렌더링되나 키 입력이 돌지 않는 실패작	모든 키 조작과 스코어, 애니메이션이 완벽한 성공작

하네스가 없을 때 AI는 자신이 작성한 코드가 실제 실행 런타임에서 어떤 부작용을 일으키는지 알 수 없으므로, 겉보기에만 그럴듯하고 속은 텅 빈 실패작을 쏟아낸다. 반면, 하네스가 제대로 작동하는 환경에서는 AI가 스스로 컴파일러와 테스트 도구를 기동하여 버그를 자가 인지하고 단 120초 만에 완벽한 무결성 코드를 뽑아낸다.

3.2 Claude Code 기반 6대 하네스 컴포넌트 작동 원리

하네스는 모호한 이론이 아니다. 우리 프로젝트 루트 저장소와 설정 파일에 실제 구현해 두는 실체다. 각 레이어의 핵심 작동 매커니즘을 심층 분석한다.

① 규칙 전달: CLAUDE.md

AI가 터미널 세션을 새로 기동할 때마다 빌드 명령어, 테스트 방법, 코드 명명 규칙(Convention)을 매번 길게 수동 설명해 주는 것은 불가능하다. Claude Code는 세션 진입 시 루트 디렉토리에 존재하는 CLAUDE.md 파일을 무조건 자동으로 먼저 검색하여 자가 로드(Load)하도록 설계되어 있다.

이 문서 안에 프로젝트의 핵심 인프라 가이드를 촘촘하게 명문화해 두면, 세션이 끊기거나 모델이 교체되어도 동일한 규칙을 가지고 에이전트가 움직인다.

[실전 아키텍처를 위한 최상위 CLAUDE.md 모범 예시]

# 프로젝트 개발 규약 (CLAUDE.md)

## 1. 빌드 및 테스트 커맨드
- 애플리케이션 빌드: `./gradlew clean build -x test`
- 전체 유닛 테스트 실행: `./gradlew test`
- 특정 통합 테스트 실행: `./gradlew test --tests "*IntegrationTest*"`

## 2. 코드 스타일 및 아키텍처 컨벤션
- **레이어드 아키텍처 준수**: Controller는 절대 Repository를 직접 주입받을 수 없으며, 무조건 Service를 경유해야 한다.
- **예외 처리 규칙**: 수동 try-catch 분기를 최소화하고 전역 예외 처리기(`@RestControllerAdvice`)로 통일한다.
- **상태 전이**: 사용자 엔티티의 상태 변경은 비즈니스 메서드로 완전히 캡슐화하며, 외부 서비스 레이어에서 필드를 세터로 직접 수정하는 행위를 금지한다.
- **DB 무결성**: 모든 삭제 요청은 수명주기 수칙에 따라 soft-delete(비활성화 상태값 처리)를 우선 적용한다.

② 위험 차단: Permissions (보안 인프라 제어)

AI 에이전트가 무소불위의 권한으로 시스템을 망가뜨리는 것을 하네스 레벨에서 원천 봉쇄해야 한다. Claude Code가 로컬 파일에 데이터를 쓰거나, 터미널 명령을 돌리거나, 인터넷을 통해 외부 API를 호출하려고 할 때 반드시 개발자에게 검증 팝업을 띄우고 승인(Permission)을 얻게 만드는 물리적 방어선이다. 규칙 명세(Soft Guard)와 물리적 실행 차단(Hard Guard)을 분리하여 사고를 예방한다.

③ 자동 검증: Hooks (수명주기 훅 바인딩)

도구를 사용하기 전과 후에 특정 액션을 강제로 끼워 넣는 자동화 훅이다. PreToolUse나 PostToolUse 라이프사이클 이벤트에 린터(Linter)나 컴파일러 검증을 자동 바인딩할 수 있다. 예를 들어 AI가 코드를 한 줄 고치고 승인 없이 저장하려고 하면, 훅 시스템이 강제로 컴파일 오류를 인지하여 해당 저장을 철회시키고 AI에게 에러 피드백을 전달하여 원천적으로 깨진 코드가 커밋되는 불상사를 막아준다.

에이전트는 완벽하지 않으며 언제든 구문 오류를 만들 수 있다. 하네스는 개발자가 눈으로 일일이 에러를 확인해 피드백을 주기 전에, 터미널 컴파일러와 훅을 이용해 실패 패킷을 에이전트에게 곧바로 반사해 주는 '로컬 피드백 루프 자동화'를 핵심 구동 메커니즘으로 삼는다.

④ 실제 테스트 도구: MCP (Model Context Protocol)

AI가 그저 상상 속에서만 동작을 예측하는 한계를 넘어서게 하려면 실제 환경의 데이터와 지표를 읽고 쓸 수 있는 '손과 발'이 있어야 한다. MCP(Model Context Protocol) 연동을 통해 AI가 데이터베이스에 직접 접속하여 쿼리를 날려보거나, Sentry에 축적된 장애 스택 트레이스 실시간 수집, GitHub 이슈 관리를 스스로 수행하도록 외부 도구를 안전하게 제어 환경에 플러그인(Plug-in)하는 기술이다.

⑤ AI 분리: Subagent (서브에이전트 격리 위임)

대형 프로젝트를 진행할 때 단 하나의 메인 세션이 방대한 파일 읽기, 정적 분석, 코드 생성을 전부 도맡으면 메인 컨텍스트 윈도우가 순식간에 수십만 토큰으로 오염되어 사고가 둔해진다. 하네스 설계의 고급 기법은 무거운 분석이나 고립된 리서치 업무가 필요할 때 메인이 자신의 컨텍스트 정보를 넘겨 일시적인 하위 '서브에이전트(Subagents)'를 포크(Fork) 생성하는 것이다. 서브에이전트가 고립된 환경에서 탐색을 마친 뒤 핵심 요약 보고서만 메인에게 돌려주고 세션을 파괴함으로써, 사고 예산(Thinking Budget)과 지능 정합성을 유지한다.

⑥ 진화 원칙: 메타 원칙 (Meta-principles)

하네스는 한 번 구축하고 멈춰 서는 만리장성이 아니다. 소프트웨어가 복잡해지고 버그 패턴이 달라질 때마다 스스로 진화하는 메타 규약이다. 개발 과정에서 버그가 발생하면 소스 코드만 급급하게 고치는 것이 아니라, "왜 하네스가 이 버그를 잡지 못하고 나에게까지 노출했는가?"를 분석하여 CLAUDE.md 규칙이나 훅 스크립트를 한 단계 업그레이드해야 한다. 즉, 하네스 자체를 진화시키는 메타 규약 프로세스가 정립되어야만 AI와 아키텍트의 진정한 '공생 루프'가 완성된다.

4. 실전 팁 및 예외 상황 대응 (Practical Tips & Troubleshooting)

[장애 시나리오 1] CLAUDE.md가 너무 뚱뚱해져서 모델 주의력이 저하되는 현상

증상: 프로젝트의 온갖 예외 수칙과 세부 클래스 코드 규칙까지 하나의 CLAUDE.md 파일에 다 쑤셔 넣으면, AI가 매번 규칙을 읽느라 생각 예산(Token Budget)의 70% 이상을 허비하고 결국 가장 중요한 비즈니스 규칙을 망각하게 된다.
해결책 (관심사 격리 규칙 설계): 최상위 CLAUDE.md에는 오직 범용적인 실행 명령어(Build, Test)와 최우선 아키텍처 규칙(예: 서비스 레이어 강제)만 남긴다. 도메인별 세부 컨벤션은 하위 폴더 규약인 .claude/rules/ 아래에 backend-rules.md, frontend-rules.md와 같이 나누어 두고, 에이전트가 파일 수정 영역에 들어갔을 때 동적 패턴 매칭(Match: /*.tsx)을 통해 필요한 규칙만 부분 주입하는 다단계 분산 구조를 적용한다.

[장애 시나리오 2] AI가 수정을 포기하고 무한 리트라이(Infinite Retry) 버그에 빠졌을 때

증상: 자동 훅(Hooks)이 컴파일 오류를 가로막아 코드를 계속 되돌리는데, 에이전트가 해결책을 찾지 못하고 동일한 오류 코드만 10번 이상 실행하며 대량의 토큰 비용을 청구하는 무한 루프 트랩이 발생한다.
해결책 (Fail-Fast 경계 제한): 훅 시스템에 최대 누적 디버깅 횟수(최대 3회) 제한을 코딩해 두어야 한다. 3번의 자가 치유 시도가 실패하면 에이전트 루프가 즉시 강제 락을 걸고 인간 개발자에게 대화를 요구하도록 설계한다. 더불어, 에러 로그가 들어올 때 에러 원인의 추론 분기를 단순 컴파일 메시지 파싱이 아닌 소스 내 아키텍처 정책 파일과 대조하는 스크립트를 훅 내부에 제공하는 것이 훨씬 현명하다.

5. 결론 (Conclusion)

인공지능 에이전트가 스스로 터미널을 열고 코드를 수정하여 원격 저장소에 커밋하는 패러다임 변화 속에서, 백엔드 개발자의 전문성은 단순히 키보드를 타다닥 두드리는 한 줄의 코딩 실력으로 증명되지 않는다.

Anthropic의 엄밀한 벤치마크 결과가 보여주듯, 고삐 풀린 야생의 인공지능은 겉보기엔 그럴싸해 보이지만 실제로는 동작하지 않는 부실한 부채 덩어리 코드를 양산할 뿐이다. AI 에이전트가 놀라운 성능을 내는 유일한 순간은 인간 아키텍트가 정교하게 놓아준 '하네스(Harness)' 인프라 경계 안에서 안전하게 자율 주행할 때이다.

실수가 나올 때마다 인공지능을 탓하기 전에, 우리의 하네스 규약에 어떤 구멍이 있었는지 고민하고 이를 인프라적으로 업그레이드하자.

'Claude' 카테고리의 다른 글

[Claude Code] 단일 CLAUDE.md의 한계를 넘어서: .claude/rules/와 Nested 구조를 활용한 에이전트 통제 (0)	2026.05.26
[Claude Code] "발표 자료 만들어줘" — Claude Code skill-creator 기반 스킬 빌드 및 플러그인 배포 가이드 (0)	2026.05.26
[Claude Code] 클로드 코드 에이전트 팀 & 에이전트 뷰 정리 (0)	2026.05.24
[Claude Code] 에이전틱 루프와 EPIC 워크플로우 구축하기 (1)	2026.05.24
[Claude Code] 에이전트 확장 생태계 구축: Claude Code 플러그인 제작 및 커스텀 마켓플레이스 배포 (0)	2026.05.24

coding_whale 님의 블로그

[Claude Code] AI 실수를 줄이는 법, 하네스 엔지니어링 정리

2. 주요 특징 및 핵심 로직 (Main Features & Logic)

하네스(Harness)의 정의와 아키텍처적 개념

3. 상세 가이드 및 심층 분석 (Detailed Guide)

3.1 Anthropic의 실증 벤치마크: 레트로 게임 메이커 실험

3.2 Claude Code 기반 6대 하네스 컴포넌트 작동 원리

① 규칙 전달: CLAUDE.md

② 위험 차단: Permissions (보안 인프라 제어)

③ 자동 검증: Hooks (수명주기 훅 바인딩)

④ 실제 테스트 도구: MCP (Model Context Protocol)

⑤ AI 분리: Subagent (서브에이전트 격리 위임)

⑥ 진화 원칙: 메타 원칙 (Meta-principles)

4. 실전 팁 및 예외 상황 대응 (Practical Tips & Troubleshooting)

[장애 시나리오 1] CLAUDE.md가 너무 뚱뚱해져서 모델 주의력이 저하되는 현상

[장애 시나리오 2] AI가 수정을 포기하고 무한 리트라이(Infinite Retry) 버그에 빠졌을 때

5. 결론 (Conclusion)

'Claude' 카테고리의 다른 글

티스토리툴바

[Claude Code] AI 실수를 줄이는 법, 하네스 엔지니어링 정리

2. 주요 특징 및 핵심 로직 (Main Features & Logic)

하네스(Harness)의 정의와 아키텍처적 개념

3. 상세 가이드 및 심층 분석 (Detailed Guide)

3.1 Anthropic의 실증 벤치마크: 레트로 게임 메이커 실험

3.2 Claude Code 기반 6대 하네스 컴포넌트 작동 원리

① 규칙 전달: CLAUDE.md

② 위험 차단: Permissions (보안 인프라 제어)

③ 자동 검증: Hooks (수명주기 훅 바인딩)

④ 실제 테스트 도구: MCP (Model Context Protocol)

⑤ AI 분리: Subagent (서브에이전트 격리 위임)

⑥ 진화 원칙: 메타 원칙 (Meta-principles)

4. 실전 팁 및 예외 상황 대응 (Practical Tips & Troubleshooting)

[장애 시나리오 1] CLAUDE.md가 너무 뚱뚱해져서 모델 주의력이 저하되는 현상

[장애 시나리오 2] AI가 수정을 포기하고 무한 리트라이(Infinite Retry) 버그에 빠졌을 때

5. 결론 (Conclusion)

'Claude' 카테고리의 다른 글

관련글

티스토리툴바