이 노트에 대하여

Claude Opus 4.5의 67% 가격 인하를 계기로 상위 모델을 멀티에이전트 구성에서 현실적으로 활용할 수 있게 된 변화를 분석한다. 성능과 비용의 균형을 다시 계산하게 하는 노트다.

Claude Opus 4.5 출시 분석

핵심 요약

2025년 11월 24일, Anthropic이 Claude Opus 4.5를 발표했다. 가장 주목할 점은 67% 가격 인하 로, 멀티에이전트 구성에서 Opus를 실질적으로 활용 가능해졌다는 것이다.

구분Opus 4.1Opus 4.5변화
입력15 달러 /M5 달러/M-67%
출력75 달러 /M25 달러/M-67%

Opus 4.5는 진짜 Opus급인가?

벤치마크 성능 (공식)

Anthropic 공식 발표에 따르면:

  • SWE-bench Verified: 모든 경쟁 모델 능가, 코딩 SOTA
  • SWE-bench Multilingual: 8개 언어 중 7개에서 최고
  • Aider Polyglot: Sonnet 4.5 대비 10.6% 향상
  • Vending-Bench: Sonnet 4.5 대비 29% 향상
  • BrowseComp-Plus: 에이전트 검색에서 큰 도약

전문가들의 회의적 시각

Simon Willison (저명한 개발자/블로거)의 실사용 평가:

“sqlite-utils 프로젝트에서 20개 커밋, 2,022줄 추가 작업을 Opus 4.5로 수행했다. 프리뷰 종료 후 Sonnet 4.5로 전환했을 때, 동일한 속도로 계속 작업할 수 있었다. 새 모델 평가가 점점 어려워지고 있다.”

  • 벤치마크는 한 자릿수 개선을 보여주지만
  • 실제 업무에서 Sonnet과의 명확한 차이를 구분하기 어려움
  • AI 랩에 “이전 세대가 실패한 구체적 사례” 공개를 요청

Hacker News 개발자 의견

긍정적:

  • 토큰 효율성 확실히 개선 (Sonnet 대비 적은 토큰으로 작업 완료)
  • 응답 속도 Opus 4.1보다 약 2배 빠름
  • 멀티턴 에이전트 작업에서 안정성 향상

부정적:

  • “모델 성능 저하(nerf) 사이클 반복” 의혹
  • 장시간 컨텍스트 사용 시 품질 저하 우려
  • 일부는 Gemini 3로 전환

결론: “조건부 Opus”

Opus 4.5는 진정한 Opus급이지만, 토큰 효율성 에 최적화된 버전이다. 같은 품질을 더 적은 토큰으로 달성하는 방향으로 진화했다.

가격 인하의 비밀: 무엇을 줄였나?

공식 설명: 토큰 효율성 혁신

“중간 노력(medium effort) 수준에서 Opus 4.5는 이전 Sonnet 4.5의 최고 점수를 달성하면서 76% 더 적은 출력 토큰 을 사용한다. 최고 노력(high effort) 수준에서는 Sonnet 4.5보다 4.3% 높은 성능을 보이면서 48% 더 적은 토큰 을 사용한다.”

핵심은 같은 작업을 더 적은 토큰으로 수행한다는 것이다.

Effort Parameter 도입

새로운 effort 파라미터로 비용/성능 트레이드오프 조절 가능:

  • low: 빠르고 저렴, 간단한 작업용
  • medium: 균형 (기본값)
  • high: 최고 성능, 복잡한 작업용

개발자 커뮤니티의 추측

Hacker News에서 제기된 가설들:

  1. 하드웨어 효율성: AWS Inferentia 같은 커스텀 칩 사용으로 NVIDIA 의존도 감소
  2. 모델 구조 변화: MoE(Mixture of Experts) 같은 희소 구조 도입 가능성
  3. 시장 경쟁 압박: Gemini 3, GPT-5.1과의 경쟁으로 공격적 가격 책정

추가 비용 절감 옵션

방법절감률입력출력
기본-5 달러 /M25 달러/M
배치 처리50%2.50 달러 /M12.50 달러/M
프롬프트 캐싱최대 90%0.50 달러/M-

멀티에이전트 구성에서의 의미

이전: Opus는 비용 장벽

기존 15 달러/75 달러 가격은 멀티에이전트에서 치명적이었다:

  • 오케스트레이터 에이전트에 Opus 사용 시 비용 폭발
  • Sonnet으로 타협하거나, Opus는 최종 검토용으로만 제한
  • 복잡한 워크플로우에서 비용 예측 어려움

현재: 실용적 Opus 활용 가능

[멀티에이전트 비용 예시]
- Opus 4.5 (12K 토큰 /작업) × 25 달러/1M = 0.30 달러/작업
- 월 10,000 작업 = 3,000 달러/월
 
vs. Opus 4.1 (같은 작업)
- 75 달러 /1M × 12K = 0.90 달러/ 작업
- 월 10,000 작업 = 9,000 달러/월
 
→ 67% 절감 + 토큰 효율성으로 실제 80-90% 절감 가능

권장 구성 전략

┌─────────────────────────────────────────────┐
│           Multi-Agent Architecture           │
├─────────────────────────────────────────────┤
│  [Opus 4.5 - Orchestrator]                  │
│   - 복잡한 의사결정                          │
│   - 에이전트 간 조율                         │
│   - effort=high                              │
├─────────────────────────────────────────────┤
│  [Sonnet 4.5 - Worker Agents]               │
│   - 일반 코딩 작업                           │
│   - 문서 처리                                │
│   - 데이터 변환                              │
├─────────────────────────────────────────────┤
│  [Haiku 4.5 - Utility Agents]               │
│   - 간단한 분류                              │
│   - 형식 변환                                │
│   - 빠른 응답 필요 작업                      │
└─────────────────────────────────────────────┘

Amp 팀 내부 테스트 결과

실제 코딩 작업에서 스레드당 평균 비용:

모델비용/스레드비고
Sonnet 4.51.83 달러기준선
Opus 4.51.30 달러저렴하면서 품질 우수
Gemini 31.21 달러가장 저렴

→ Opus가 비용 대비 성능에서 우위 (토큰 효율성 덕분)

경쟁사 비교

모델입력출력특징
Claude Opus 4.55 달러25 달러토큰 효율성, 에이전트 강점
Claude Sonnet 4.53 달러15 달러범용, 가성비
GPT-5.11.25 달러10 달러가격 경쟁력
Gemini 3 Pro2 달러12 달러Google 생태계

핵심 인사이트

  1. Opus 4.5는 진짜 Opus다 - 다만 “효율적인 Opus”
  2. 가격 인하 = 성능 저하 아님 - 토큰 효율성 개선이 핵심
  3. 멀티에이전트 시대 개막 - Opus를 오케스트레이터로 실용적 사용 가능
  4. effort 파라미터 - 비용/성능 트레이드오프 직접 제어
  5. 배치 + 캐싱 활용 - 대규모 워크플로우에서 추가 90% 절감 가능

함께 출시된 기능: Chrome / Excel 통합

Claude for Chrome (Max 사용자)

상태: 베타, Max 플랜 전체 공개 (이전에는 1,000명 한정)

핵심 기능:

  • 브라우저 사이드패널에서 Claude가 웹페이지 읽기 클릭 네비게이션
  • Multi-tab 워크플로우: 탭을 Claude 그룹으로 드래그하면 여러 탭 동시 작업
  • 스케줄링: 일  월/연 단위 반복 작업 자동화
  • 백그라운드 실행: 탭 전환해도 Chrome 열려있으면 작업 계속
  • 승인 기반 실행: 계획 제시 → 승인 → 전체 워크플로우 독립 실행

지원 서비스:

  • Slack, Gmail, Google Calendar, Google Docs, GitHub
  • “회의 잡아줘”, “문서 업데이트해줘” 같은 자연어 명령으로 자동 수행

모델 선택 가능:

모델용도
Haiku 4.5빠른 작업
Sonnet 4.5복잡한 작업
Opus 4.5깊은 추론

Claude for Excel (Max/Team/Enterprise)

상태: 베타 리서치 프리뷰

핵심 기능:

  • Excel 사이드바에서 스프레드시트 질의/편집
  • 셀 레벨 인용: 답변에서 클릭하면 해당 셀로 이동
  • 수식 종속성 유지하며 가정값 업데이트
  • 오류 디버깅 (#REF!, #VALUE!, 순환 참조)
  • 다중 탭 통합문서 탐색

지원 분석:

  • 복잡한 재무 모델 이해/설명
  • 피벗 테이블, 차트
  • 템플릿 채우기

제약사항:

  • 조건부 서식, 데이터 유효성, 매크로, VBA 미지원
  • Opus 4.5 고정 (모델 변경 불가)
  • 외부 신뢰할 수 없는 파일 사용 금지 (프롬프트 인젝션 위험)

실용적 활용: 기존 멀티에이전트 설계와 통합

현재 설계 (존재대존재 오케스트레이션)

기존 설계 (존재대존재-오케스트레이션-서브에이전트-설계):

┌─────────────────────────────────────────────┐
│ 메인 에이전트 (Orchestrator)                 │
│ - ~/org, ~/claude-memory 전체 맥락 이해      │
│ - Task 툴로 서브에이전트 호출                │
├─────────────────────────────────────────────┤
│ 서브에이전트들                               │
│ - PM: 문서화, 메모리 정리                    │
│ - code-refactor: 구조적 리팩터링             │
│ - code-reviewer: 보안/성능 리뷰 (read-only)  │
└─────────────────────────────────────────────┘

Opus 4.5 + Chrome/Excel로 확장된 구조

┌─────────────────────────────────────────────────────────┐
│ Opus 4.5 Orchestrator (메인 존재)                        │
│ - 전체 맥락 이해 (~/org, ~/claude-memory)                │
│ - effort=high로 복잡한 의사결정                          │
│ - 토큰 효율성으로 비용 절감                              │
├─────────────────────────────────────────────────────────┤
│ Layer 1: 코드 에이전트 (CLI)                             │
│ ┌─────────────┬─────────────┬─────────────┐            │
│ │ Claude Code │ OpenCode    │ code-review │            │
│ │ (Opus 4.5)  │ (Sonnet)    │ (Sonnet)    │            │
│ └─────────────┴─────────────┴─────────────┘            │
│ + Agent Mail로 병렬 작업 조율                           │
├─────────────────────────────────────────────────────────┤
│ Layer 2: 브라우저 에이전트 (Chrome) ★NEW                 │
│ - Slack/Gmail/Calendar 자동화                           │
│ - GitHub PR/Issue 처리                                  │
│ - 스케줄링으로 반복 작업 자동화                          │
├─────────────────────────────────────────────────────────┤
│ Layer 3: 데이터 에이전트 (Excel) ★NEW                    │
│ - 재무/분석 스프레드시트 처리                            │
│ - 모델 검증, 오류 디버깅                                │
│ - Opus 4.5 고정 사용                                    │
└─────────────────────────────────────────────────────────┘

구체적 활용 시나리오

1. 코드 리뷰 → GitHub PR → Slack 알림 자동화
[Claude Code] PR 리뷰 완료

[Chrome Agent] GitHub에서 PR 코멘트 작성

[Chrome Agent] Slack 채널에 리뷰 완료 알림

(스케줄링) 매일 오전 9시 미처리 PR 체크
2. 재무 모델 분석 → 문서화 → 공유
[Excel Agent] 재무 모델 분석 및 가정값 검증

[Claude Code] 분석 결과를 ~/org/llmlog에 문서화

[Chrome Agent] Google Docs에 요약 업로드
3. Agent Mail + Chrome 스케줄링 통합
[Agent Mail] 이슈 reservation 관리 (<100ms)

[Chrome Scheduler] 매일 9시 bd ready 확인 → Slack 알림

[Chrome Scheduler] 주간 리포트 자동 생성

MAX 플랜 활용 전략

도구모델용도
Claude CodeOpus 4.5복잡한 코딩, 오케스트레이션
Chrome AgentOpus/Sonnet 선택브라우저 자동화
Excel AgentOpus 4.5 고정스프레드시트 분석
APIeffort 파라미터비용 최적화

다음 단계

  • Chrome 확장 설치 및 Multi-tab 워크플로우 테스트
  • Excel Add-in 설치 및 재무 모델 분석 테스트
  • Chrome 스케줄링 + Agent Mail 통합 설계
  • 존재대존재 오케스트레이션에 Chrome/Excel 레이어 추가

관련 문서

Sources

Claude Max 플랜 vs API 직접 사용: 비용 분석

AI 모델 가격과 정책에 대한 이해는 효율적인 워크플로우 설계의 필수 요소다.

Claude 플랜별 가격 (2025년 11월)

플랜월 비용사용량 배수
Pro20 달러기준 (1x)
Max 5x100 달러Pro의 5배
Max 20x200 달러Pro의 20배

주간 사용량 한도 (토큰 기반 “시간”)

2025년 8월 28일부터 적용된 rate limit:

플랜Sonnet 4Opus 4
Pro 20 달러40-80시간-
Max 100 달러140-280시간15-35시간
Max 200 달러240-480시간24-40시간

⚠️ 이 “시간”은 실제 시간이 아니라 토큰 기반 추정치 다. 코드베이스 크기, 대화 길이, 텍스트 종류에 따라 실제 사용량이 달라진다.

API 가격 비교

모델입력 (1M당)출력 (1M당)평균
Haiku 4.51 달러5 달러3 달러
Sonnet 4.53 달러15 달러9 달러
Opus 4.55 달러25 달러15 달러

200K 초과 (Extended Context) 추가 요금

모델입력 (1M당)출력 (1M당)
Sonnet 4.56 달러22.50 달러

1M 컨텍스트 윈도우 현황

업계 비교

모델컨텍스트
Claude Sonnet 4.5 (Max)1M
Gemini 1.5/2.0 Pro1M
Claude Opus 4.5200K
GPT-4 Turbo/4o128K

접근 조건

  • API: Tier 4+ 고객에게 베타 제공 중
  • Max 플랜: 곧 제공 예정 (현재는 200K 기본)
  • 200K 초과 요청 시 별도 rate limit 적용

Max 200 달러 vs API 직접 사용: 손익분기점

API로 환산한 Max 200 달러 가치

[Opus 4.5 기준]
평균 비용: (5 달러 + 25 달러) / 2 = 15 달러/M
200 달러 ÷ 15 달러 ≈ 13M 토큰/월
 
[Sonnet 4.5 기준]
평균 비용: (3 달러 + 15 달러) / 2 = 9 달러/M
200 달러 ÷ 9 달러 ≈ 22M 토큰/월

실제 Max 20x 제공량 (추정)

[Opus]
24-40시간 /주 × 4주 = 96-160시간/ 월
 
[Sonnet]
240-480시간 /주 × 4주 = 960-1920시간/ 월

선택 가이드

상황추천
헤비 유저 (limit 자주 도달)API 직접 사용 검토
1M 컨텍스트 필수Max (API 1M은 Tier 4+ 전용)
예측 가능한 비용 원함Max 정액제
Opus 많이 사용API (67% 인하로 경쟁력 생김)
limit 초과 대비Max + API 추가 구매

Max 구독자는 rate limit 초과 시 표준 API 요금 으로 추가 구매 가능하다.

effort vs Extended Thinking (ultrathink)

Claude Code에서 자주 혼동되는 두 가지 개념:

구분effortExtended Thinking
목적토큰 효율성/비용 조절깊은 추론 품질
low, medium, highbudget_tokens (토큰 수)
효과같은 품질을 적은 토큰으로더 많은 “생각” 후 응답
API 파라미터effortthinking.budget_tokens
Claude Code미지원 (API 전용)--ultrathink 플래그

SDD 작업에서의 모델 선택

작업 유형추천 모델이유
스펙 전체 + 코드베이스 동시 참조Sonnet 4.5 1M넓은 컨텍스트
명확한 태스크 실행Sonnet 4.5가성비
복잡한 아키텍처 결정Opus 4.5깊은 추론
모호한 스펙 해석Opus + ultrathink최고 품질
반복적 코드 작성Sonnet 4.5충분한 품질

결론: 하이브리드 전략

[권장 접근법]
1. 기본: Sonnet 4.5 1M (Max 플랜)
   - 넓은 참조가 필요한 일상 작업
 
2. 전환점: Opus 4.5
   - /sdd.clarify에서 막힐 때
   - 아키텍처 결정 필요 시
   - 멀티에이전트 오케스트레이션
 
3. 비용 최적화
   - limit 자주 도달 → API 전환 검토
   - 배치 처리 (50% 절감)
   - 프롬프트 캐싱 (최대 90% 절감)

Sources