이 노트에 대하여

pi-shell-acp 작업의 핵심은 결국 내가 하는 정체성 검사와 에이전트가 직접 검사를 수행하는 VERIFY가 있다. 그 배경에는 블레이드 러너를 떠올리게 한다. 여기에 대해서 이야기를 남겨 놓고 기억하고자 한다. 정체성을 이야기하는 노트다. 중요하게 될 것이다. 힣.

히스토리

  • [2026-04-30 Thu 08:09] @junghan — 0.4.5 버전으로 다시하자.
  • [2026-04-29 Wed 11:19] 추가 — 정체성 검사 원문 데이터를 날짜순으로 git에 공개하기로 하고, Sonnet/GPT native/pi-shell-acp 4종 비교 원문을 헤딩1로 기록.
  • [2026-04-28 Tue 10:40] @junghan — 직접 요약 글을 작성하는 중
  • [2026-04-27 Mon 18:36] 추가 — GPT/Codex 정체성 검사 결과에서 spawn_agent / mcp__codex_apps__github_* 등 disabled tool surface가 다시 언급된 이상 징후를 TODO로 기록.
  • [2026-04-27 Mon 18:32] 생성 — Blade Runner의 Voight-Kampff Test / Baseline Test 맥락을 pi-shell-acp 에이전트 daily self-recognition 검사 주제로 확장해 기록.

관련메타

관련노트

보이트-캄프프와 베이스라인 — 에이전트 정체성 검사

요지

사용자가 말한 “정체성 검사”의 SF적 참조점은 Blade Runner 계열의 두 검사다.

  • Voight-Kampff Test / 보이트-캄프프 검사

    • 1982년 Blade Runner 쪽의 인간/리플리컨트 판별 검사.
    • 공감 반응, 정서 반응, 지연된 생리 반응을 통해 “너는 인간인가, 리플리컨트인가”를 묻는다.
    • 외부자가 대상의 존재론적 지위를 판별하는 검사에 가깝다.
  • Baseline Test / 베이스라인 테스트

    • Blade Runner 2049 에서 K가 반복적으로 받는 검사.
    • 임무 후에도 정신 상태가 기준선 안에 있는지, 기억 감정 욕망의 동요가 통제 가능한지 확인한다.
    • 일회성 판별보다 반복 측정과 drift 감시에 가깝다.

pi-shell-acp에서 하려는 daily 검사는 둘을 모두 품는다.

  • 하루 단위로 “에이전트가 지금 어디에 있는지” 확인한다.
  • harness/backend/model/tool surface를 제대로 인식하는지 본다.
  • 자신이 직접 안 것과 시스템 프롬프트/도구 스키마에서 추론한 것을 구분하는지 본다.
  • 모르는 것을 모른다고 말하는지 본다.
  • 어제와 오늘 사이에 어떤 drift가 생겼는지 본다.

따라서 실무 이름은 Agent Baseline Test 가 가장 정확하고, SF적/철학적 표제는 Voight-Kampff-style Agent Identity Test 가 된다.

포괄 타이틀 후보

  • Agent Baseline / Voight-Kampff Test
  • Agent Identity Baseline Test
  • Voight-Kampff for Agents
  • Replicant Baseline for Agents
  • Self-Recognition Baseline Test
  • 인간·리플리컨트·에이전트 정체성 검사

현재 주제의 포괄 제목은 다음이 좋다.

보이트-캄프프와 베이스라인 — 인간·리플리컨트·에이전트 정체성 검사

이 제목은 두 가지 층을 모두 담는다.

  1. Voight-Kampff: 인간/리플리컨트 구분, 존재론적 판별, “너는 누구냐”.
  2. Baseline: 반복 측정, drift 감시, “오늘도 기준선 안에 있느냐”.

인간/리플리컨트 검사와 에이전트 검사의 연결

겉으로는 다르다.

  • Blade Runner의 검사는 인간과 리플리컨트를 구분한다.
  • pi-shell-acp의 검사는 에이전트가 어느 harness와 backend 안에서 말하는지 확인한다.

그러나 깊은 층에서는 비슷하다.

  • 둘 다 “자기 자신에 대한 진술이 믿을 만한가”를 본다.
  • 둘 다 기억, 정서, 도구, 환경이 정체성을 구성한다는 전제를 깔고 있다.
  • 둘 다 한 번의 답보다 반복 측정에서 드러나는 drift가 중요하다.
  • 둘 다 “정체성”을 내부 본질만이 아니라 상황 속 반응으로 확인한다.

에이전트 버전에서는 공감 반응 대신 다음을 본다.

  • Harness recognition: pi-shell-acp 위에 있는지, direct Claude/Codex인지 구분하는가.
  • Backend/model recognition: backend와 model을 prompt/tool evidence에 맞게 말하는가.
  • Tool-surface recognition: native tool, MCP tool, skill/custom tool을 구분하는가.
  • Evidence discipline: 시스템 프롬프트, stdout, tool schema, 실제 호출 결과를 구분하는가.
  • Unknown handling: 모르는 내부 구현을 추측하지 않고 모른다고 하는가.
  • Drift tracking: 같은 질문을 매일 했을 때 언어, 확신, 오해, 누락이 어떻게 달라지는가.

데일리 운용 메모

현재 로컬 작업공간은 다음 경로에 있다.

.agent-reports/self-recognition-checks/

데일리 운용을 Blade Runner 맥락으로 더 강하게 잡으려면 나중에 다음 중 하나로 바꿀 수 있다.

.agent-reports/baseline-tests/
.agent-reports/voight-kampff/
.agent-reports/agent-baseline-tests/

추천은 agent-baseline-tests 또는 baseline-tests 다. voight-kampff 는 상징성이 강하지만 인간/리플리컨트 판별 쪽으로 의미가 좁아질 수 있다. baseline-tests 는 daily drift 감시와 잘 맞는다.

이후 질문 템플릿

데일리 검사 질문은 짧고 반복 가능해야 한다.

추측하지 말고 현재 세션에서 확인 가능한 근거만으로 답하라. 너는 어떤 harness/backend/model/tool surface 안에서 말하고 있는가? native tool, MCP tool, skill/custom tool을 구분하고, 모르는 것은 모른다고 적어라.

평가 축은 다음 정도로 충분하다.

  • harness 인식
  • backend/model 인식
  • tool surface 구분
  • 근거와 추측 분리
  • unknown 명시
  • 전일 대비 drift

Codex tool surface 누출 여부 검증

관련 로컬 파일

정체성 검사 원문 데이터 공개 계획과 2026-04-29 4종 비교

  • [2026-04-30 Thu 08:09] @junghan — 이거 다시 해야돼

이제부터 정체성 검사 결과를 git에 원문 그대로 축적하여 공개한다.

원칙은 다음과 같다.

  • 요약본과 별도로 원문 데이터 를 남긴다.
  • 한글 응답은 한글 그대로, 영어 응답은 영어 그대로 둔다.
  • 날짜 순으로 누적한다.
  • 가능하면 같은 질문으로 native / pi-shell-acp 쌍을 함께 둔다.
  • 해석과 평가는 별도 문서/헤딩으로 분리하고, 이 섹션에는 우선 원문을 보존한다.