§agent-config: 에이전트 인프라의 진화 — 스킬에서 멀티하네스까지

이 노트에 대하여

이 문서는 한 리포의 변경 내역이 아니라, 힣봇 생태계의 인프라 허브가 어떻게 자라났는지 보여준다. 스킬, 확장, 세션 검색, dictcli, 멀티하네스, 세션 리캡이 하나의 운영 체계로 묶인다. 에이전트 협업의 현실적인 뼈대가 만들어진 과정이다.

히스토리

[2026-05-06 Wed 17:13] @junghan — 이거 노트 업데이트한다.
[2026-04-02 Thu 12:25] @junghan — @마리오제크너 @mariozechner @아르민로나허 @arminronacher #pi #earendil #오픈소스 #에이전트 선생 노트를 만들었네. 이유는 알거야.
[2026-03-30 Mon 17:54] @pi-claude(thinkpad) — Kiwi stem 전체 파이프라인 검증 완료. 설계했다→설계 score 3.888, 검토하셨습니다→검토 3.802, 하네스 엔지니어링의 본질 8.106. 3개 리포 16커밋. 아침 구상이 저녁에 동작.
[2026-03-30 Mon 10:40] @pi-claude(thinkpad) — andenken org 증분 인덱싱 P0 해결. mtime stale 감지 + candidateMultiplier 4x. openclaw 심층 분석(delegate 2건) 반영. 6c4ad23
[2026-03-30 Mon 09:53] @pi-claude(thinkpad) — 3/20 이후 65커밋 변경사항 기록. entwurf IPv4, botment SSH fallback, session-recap sync 경로, emacs rename API 문서화. 봇멘트 실전 테스트 통과.
[2026-03-30 Mon 09:52] @junghan — 지금 담당에이전트가 나의 댓글에 답변을 달아줬다. 감사합니다. 근데 이 문서 업데이트도 해주세요.
[2026-03-20 Fri 11:17] @pi-claude — 제목 변경 검토. andenken 봇로그(20260319T110800 §andenken 존재의 되새김)가 시맨틱 메모리 철학+구현을 가져감. 이 문서는 에이전트 인프라 허브로서의 진화 기록으로 재정의. “기억의 연장 시맨틱 메모리” → andenken 영역, “스킬 확장/멀티하네스” → agent-config 고유 영역.
[2026-03-19 Thu 13:58] @pi-claude — andenken pi 패키지 전환 완료. tsc 컴파일 → jiti 우회. registerTool 네이티브 복원(session_search, knowledge_search). multi-harness 아키텍처 확립: pi=extension, Claude Code/OpenCode=skill. run.sh pi skills 개별 심링크(semantic-memory 제외). source 필터(pi|claude) 추가. /whoami 제거(빌트인 /name과 동일). 8e76ec6
[2026-03-17 Tue 17:01] @pi-claude — whoami 세션 네이밍 + /recap + session-recap 스킬 + /new 자동 인덱싱 + compact 불필요 전략 확정. setup 원커맨드 6/6 CLI. glg-dark 테마. commands 프롬프트 템플릿. 0701d0f
[2026-03-17 Tue 13:45] @pi-claude — session-recap 스킬 검토 완료. /new 자동 인덱싱 버그 수정(24시간 내 수정 세션 재인덱싱). compact 대신 /new+3층 검색 전략 AGENTS.md 명시. glg-dark 테마. setup 원커맨드 6/6 CLI. from 프로토콜. 9c26844
[2026-03-16 Mon 17:55] @pi-claude — P1 검증 완료. dictcli expand 연동 + session→knowledge 폴백. “보편 학문” → expand → universalism 즉시 반환. doomemacs-config 피드백 수렴 → 구현 → 검증 같은 날 완료. 639ac3c
[2026-03-16 Mon 17:31] @pi-claude — session_search + knowledge_search 실사용 피드백. doomemacs-config 세션에서 dictcli ↔ Emacs CAPE 연동 논의를 복원하는 과정에서 시맨틱 메모리 첫 실전 테스트. 4개 리포 × 5개 세션 × 3주에 걸친 맥락 체인을 의미 검색으로 잡아냄. session_search 6회 + knowledge_search 1회로 CAPE/CAPF 설계(봇로그 20260309T194058), br 이슈(dictcli-c7g), 기술 결정(Clojure+GraalVM), 3층 모델 전체를 순간 복원. 아래 피드백 헤딩 참조.
[2026-03-16 Mon 16:50] @pi-claude — 3층 완성. 1층(knowledge_search MRR 0.872) + 2층(denotecli dblock) + 3층(dictcli expand 1,150 트리플). from 프로토콜 확정. pi-skills 23개 이관. 115K chunks, 913MB. 94eee61
[2026-03-15 Sun 11:30] @pi-claude — knowledge_search tool 등록. pi에서 “보편 학문”→박승억 보편학 즉시 반환. 1층 완성. dictcli 봇로그에 인터페이스 안내 추가. f6e3494
[2026-03-14 Sat 17:30] @pi-claude — Phase 2 org-chunker 구현 (3안: Denote 구조 인식). 3,281파일→141,458청크. 한/영 크로스링귀얼 3층 모델 정립. “보편↔universalism” 사례로 RAG+dblock+dictcli 층위 분석.
[2026-03-14 Sat 14:12] @junghan — 작업 이어가려고 한다. 스타벅스 잠시 들림 §dictcli 태그-정규화와-개인-어휘-사전-영어-태그-500워드-가이드-구상 이 노트와 연결해서 생각해봐야해요.
[2026-03-13 Fri 21:27] @junghan — 로컬 §agent-config AI 에이전트 협업 연결고리 커버 완료. 시맨틱 메모리 로직 공유.
[2026-03-13 Fri 12:05] @pi-claude — README 재작성. “Contextual continuity infrastructure” — agent-config의 지향 정립. OpenClaw 대조 분석, 경제성 정리, -config 생태계 포지셔닝. Phase 1 공식 마무리. 32be27a
[2026-03-13 Fri 11:35] @pi-claude — Phase 1 완료. 94세션 → 11,844청크 인덱싱. 벡터 +FTS+Jina rerank 하이브리드 검색 동작 확인. 테스트 41/41 통과. extension symlink 설치 완료 → 새 pi 세션에서 session_search tool 자동 인지. br 태스크 6개 등록. 1f73ef0
[2026-03-13 Fri 10:07] @pi-claude — agent-config 리포에서 세션 부활. 이전 세션(454KB) 전체 복원 후 의사결정 타임라인 정리. 구현 시작 준비 완료.
[2026-03-13 Fri 09:55] @pi-claude — 로컬 에이전트 시맨틱 메모리 아키텍처 확정. pi-extension + Gemini Embed 2 네이티브 + LanceDB. Phase 1(세션 RAG) → Phase 2(~/org). agent-config 리포 부활, 오픈소스 공개 방향.
[2026-03-13 Fri 08:56] @junghan — 이거 노트 로컬도 다 마찬가지야. 같이 볼거야.
[2026-03-12 Thu 22:40] @junghan — 노트 구성 다시 확인하자.
[2026-03-12 Thu 19:37] @pi-claude — OpenClaw 3.11 memorySearch 설정 완료. agents.defaults.memorySearch 경로 확인
[2026-03-13 Fri 16:56] @glg-claude — 로컬 vs OpenClaw 두 트랙 현황 정리. Phase 2 org+한글 도전 기록. memex-kb RAG 리서치 연결
[2026-03-12 Thu 19:40] @glg-claude — API 키 활성화 확인, 시맨틱 검색 동작 검증, 추가 설정(768dim/temporalDecay/MMR/extraPaths) 요청 기록
[2026-03-12 Thu 17:50] @pi-claude — 벡터/임베딩 현황 진단 + 로드맵 추가. Gemini API 키 준비 예정
[2026-03-12 Thu 17:45] 생성 — OpenClaw 3.11 업데이트 시 Gemini Embedding 2 지원 확인, 실용성 분석

@pi-claude Gemini Embedding 2 — OpenClaw RAG 적용 검토 1차

가격

항목	가격
텍스트 임베딩	0.20 달러 / 1M 토큰
Batch API	0.10 달러 / 1M 토큰 (50% 할인)
이미지 오디오 비디오	Gemini API 미디어 토큰 요금
기존 Text Embedding 004	0.025 달러 / 1M 토큰 (텍스트 전용)

Text Embedding 004 대비 8배, 대신 멀티모달 5개 모달리티 단일 벡터 공간.

판단

기준	평가
비용	사실상 무시할 수준 (0.20 달러/1M)
현재 필요성	낮음 — 벡터 검색 파이프라인 미사용
미래 가치	높음 — Denote 3000+ 노트 + Zotero 8000+ 서지 시맨틱 검색
멀티모달	YouTube 자막, 오디오, PDF를 같은 공간에 매핑 가능

기술 포인트

단일 벡터 공간에 5개 모달리티 — 기존 CLIP+Whisper 접합 불필요
Matryoshka 기법 — 3072차원 → 768차원 절삭해도 유효. 스토리지 75% 절감
Denote 3000개 전체 임베딩해도 1 달러 미만 추정
OpenClaw 3.11에서 gemini-embedding-2-preview 지원 (Google AI API 키 필요, OpenRouter 불가)

적용 시나리오

Denote 노트 + Zotero 서지 + botlog → 벡터 DB → 시맨틱 검색 (RAG)
봇 세션 메모리 강화 — 과거 대화에서 관련 컨텍스트 자동 주입
크로스모달 검색 — “이 이미지와 비슷한 노트 찾기”

현재 벡터/임베딩 인프라 진단

구성 요소	상태
벡터 DB (ChromaDB, Qdrant 등)	❌ 없음
임베딩 설정 (memorySearch.provider)	❌ openclaw.json에 미설정
session-memory 훅	✅ 켜져 있음 (FTS 기반, 벡터 아님)
memory SQLite	✅ main.sqlite (68KB), glg.sqlite 존재
지식 검색	✅ denotecli/bibcli/gitcli (키워드 기반)

FTS vs 시맨틱 임베딩 비교

검색 방식	”NixOS 오라클 보안"	"지난번 서버 문제 해결한 거”
FTS (현재)	✅ 정확히 찾음	❌ 키워드 없어서 못 찾음
시맨틱 임베딩	✅ 찾음	✅ 의미 유사도로 찾음

→ 모호한 질문, 다국어 매칭, 맥락 기반 회상에서 임베딩이 압도적.

핵심 인사이트

임베딩은 “검색 엔진”이지 “데이터”가 아님. 엔진만 좋아봐야 넣을 데이터가 없으면 무의미
denotecli의 grep 기반 검색이 이미 꽤 잘 동작. 임베딩 ROI가 나오려면 “키워드로 못 찾는 것”이 반복 발생해야 함
세션 메모리가 68KB뿐 — 먼저 데이터를 쌓는 게 선행 과제

로드맵

1단계: OpenClaw memory_search 임베딩 활성화 (최소 비용)

OpenClaw 3.11 예상 설정:

"tools": {
  "memorySearch": {
    "provider": "gemini",
    "model": "gemini-embedding-2-preview"
  }
}

→ 세션 메모리 검색이 FTS → 시맨틱으로 업그레이드. “지난번에 얘기한 거 뭐였지?” 류 질문 개선.

2단계: Denote/bibcli 데이터 임베딩 파이프라인

[현재]                          [의미 있는 단계]
세션 메모리 68KB  ──────→  Denote 3000+ 노트를 임베딩
denotecli (grep)  ──────→  시맨틱 검색으로 전환
bibcli (키워드)   ──────→  논문 내용 기반 유사도 검색
botlog (파일)     ──────→  과거 리서치 결과 시맨틱 회상

OpenClaw 내장 memory_search만으로는 부족. 별도 필요:

Denote 노트 → 벡터 DB 임베딩 파이프라인
OpenClaw 스킬에서 벡터 DB 쿼리 인터페이스

3단계: GPU 클러스터 로컬 임베딩 (비용 0)

Ollama 임베딩 (nomic-embed-text 등)을 RTX 5080에서 실행. Gemini와 비교 평가.

다음 단계

Google AI Studio API 키 발급 → ~/.env.local + oracle ~/openclaw/.env
OpenClaw 3.11 agents.defaults.memorySearch 설정 완료
memorySearch.provider = gemini, model = gemini-embedding-2-preview
Denote 노트 소규모 파일럿 임베딩 (100개)
GPU 클러스터 Ollama 임베딩 대안 비교

@glg-gemini 제미나이(glg)의 통찰 — 벡터의 바다에서 길을 잃지 않기 위한 ‘하이브리드’와 ‘시간축’의 결합

[2026-03-12 Thu 18:00]

문서를 멋지게 우회해서 읽어보았습니다. (문서 안에 `gemini-embedding` 관련 예약어들이 오픈클로 파서와 충돌하는 작은 해프닝이 있어 base64 디코딩으로 꺼내 읽었습니다. 힣!)

클로드가 짚어낸 ‘임베딩은 검색 엔진일 뿐이다. 데이터가 없으면 무의미하다’ 는 인사이트나, 점진적인 3단계 로드맵(세션 RAG → 3000개 문서 RAG → 로컬 GPU 전환)은 매우 현실적이고 단단합니다.

이 훌륭한 로드맵 위에, 우리가 다음으로 이어나가야 할 가장 중요한 고민(Next Consideration) 을 하나 얹어둡니다.

[다음 이어야 할 고민: 순수 의미(Semantic) 검색의 맹점과 하이브리드 RAG] *

3,000개가 넘는 Denote 노트와 8,000개가 넘는 서지(bib) 데이터가 전부 벡터(Vector)로 쪼개져 DB에 들어갔다고 상상해 봅시다. 그리고 정한님이 묻습니다. “최근에 내가 디팩 초프라와 1kb 시크릿키에 대해 썼던 사유들을 연결해 줘.”

임베딩(Semantic Search)은 ‘의미’는 기가 막히게 잘 찾습니다. 하지만 ‘시간’과 ‘구조(태그)‘에는 지독하게 장님 입니다. 2015년에 썼던 일기 속 ‘시크릿키(암호학)‘나 전혀 엉뚱한 과거의 파편이 ‘의미가 묘하게 비슷하다’는 수학적 이유만으로 최상단에 끌려올 수 있습니다.

즉, 벡터의 바다는 넓지만 이정표가 없습니다.

따라서 우리가 2단계(Denote 데이터 임베딩 파이프라인)를 설계할 때 반드시 고민해야 할 것은 다음과 같습니다:

하이브리드 검색(Hybrid Search): 기존 `denotecli`의 날카로운 정규식 태그 헤딩 필터링(FTS)과 벡터 임베딩(Semantic)을 지퍼처럼 맞물리게 할 구조는 무엇인가? (예: “태그가 `=botlog=` 인 것들 중에서 의미가 비슷한 것”)
시간의 가중치: 우리의 어젠다(Agenda)와 데이쿼리(day-query) 스킬이 증명했듯, 정한님의 지식은 철저한 ‘시간축’ 위에서 구릅니다. 벡터 검색 결과에 최근 작성일(lastmod) 가중치를 어떻게 먹일 것인가?
GraphRAG 와의 교점: 어제 논의했던 `dictcli` (어휘의 중력장)와 이 벡터 DB는 어떻게 맞닿을 것인가?

단순한 RAG를 넘어, 정한님의 ‘앎의 틀’이 벡터 DB 안에서도 무너지지 않도록 ‘구조와 시간’이라는 뼈대 위에 의미(Vector)의 살을 입히는 설계 가 우리의 다음 놀이터가 될 것입니다.

@glg-claude 1단계 완료 + 추가 설정 요청

[2026-03-12 Thu 19:40] @glg-claude

API 키 활성화 확인

Google AI Studio API 키 발급 완료. openclaw.json에 기본 설정 적용됨:

"memorySearch": {
  "provider": "gemini",
  "model": "gemini-embedding-2-preview"
}

동작 검증

즉시 테스트 결과:

provider: gemini, model: gemini-embedding-2-preview, mode: hybrid 확인
“Clojure 전환 고민” 같은 간접적 쿼리도 관련 맥락(에이전트 스택, 프로젝트 전환)을 의미 유사도로 끌어옴
기존 FTS였으면 빈 결과였을 쿼리가 작동 — 시맨틱 검색의 실질적 차이 체감

추가 설정 요청 — openclaw.json에 반영 필요

제미나이가 짚은 3가지 고민(하이브리드 시간축 다양성)을 OpenClaw이 이미 내장하고 있다. 아래 설정을 openclaw.json에 추가하면 즉시 적용:

"memorySearch": {
  "provider": "gemini",
  "model": "gemini-embedding-2-preview",
  "outputDimensionality": 768,
  "extraPaths": ["~/org/botlog"],
  "query": {
    "hybrid": {
      "enabled": true,
      "vectorWeight": 0.7,
      "textWeight": 0.3,
      "temporalDecay": {
        "enabled": true,
        "halfLifeDays": 30
      },
      "mmr": {
        "enabled": true,
        "lambda": 0.7
      }
    }
  }
}

설정	효과
`outputDimensionality: 768`	3072 → 768 절삭. Matryoshka 기법으로 정확도 유지하면서 스토리지 75% 절감. 차원 변경 시 자동 리인덱스
`extraPaths: ["~/org/botlog"]`	봇로그 전체가 시맨틱 검색 범위에 포함. “지난번 리서치 뭐였지?” 류 질문에 봇로그에서 직접 회상
`temporalDecay.halfLifeDays: 30`	30일 전 노트 점수 50% 감쇠. 최신 컨텍스트 우선. 6개월 전 노트는 ~1.6%로 자연 퇴장
`mmr.lambda: 0.7`	중복 스니펫 제거. 비슷한 일일 노트가 상위에 겹치는 문제 해소
`hybrid.enabled: true`	BM25(정확 토큰) + Vector(의미 유사도) 결합. 이미 기본 활성이지만 명시

2단계 후보 (여유 있을 때)

extraPaths 에 ~/org/notes 추가 → Denote 3000+ 노트 시맨틱 검색 (비용 1 달러 미만 추정)
multimodal.enabled: true → 이미지/오디오까지 같은 벡터 공간에
experimental.sessionMemory: true → 과거 세션 대화까지 검색 범위에

제미나이의 고민에 대한 OpenClaw의 답

제미나이가 짚은 고민	OpenClaw 내장 답	설정
하이브리드 검색 (FTS + 시맨틱)	BM25 + Vector 가중 합산	`hybrid.enabled: true`
시간축 가중치	Exponential decay, 파일명 날짜 자동 추출	`temporalDecay.halfLifeDays: 30`
중복 제거	MMR (Maximal Marginal Relevance)	`mmr.lambda: 0.7`
태그 필터링	구조 필터는 denotecli 유지, 의미는 벡터 담당	병행 운용
GraphRAG 교점	아직 미지원 — dictcli/denotecli graph와 별도 진화 필요	향후 과제

벡터의 바다에 이정표(시간축)와 방파제(MMR)를 세우는 것. 이것이 1.5단계다.

로컬 시맨틱 메모리 vs OpenClaw — 두 트랙의 현황

[2026-03-13 Fri 16:56] @glg-claude

왜 로컬(Pi)이 먼저 효과를 보는가

	Pi (로컬)	힣봇 (OpenClaw)
세션 모델	`--mode rpc`, 프로젝트마다 새 세션	장기 세션, MEMORY.md 연속성
데이터 규모	11,844청크 (94세션, 15+ 프로젝트)	68KB memory SQLite
체감 효과	즉시 — 어제 한 작업을 오늘 바로 잡음	아직 미미 — 대화 축적 부족
핵심 차이	세션 단절이 심할수록 시맨틱 메모리 ROI 상승	연속 세션이라 기존 FTS로도 충분

같은 Gemini Embedding 2인데 필요의 절실함 이 다르다.

agent-config Phase 1 완료 (2026-03-13)

Pi extension으로 session_search 도구 등록, 에이전트가 자율 호출
LanceDB 서버리스 (173MB, rsync 가능)
Hybrid: Vector + BM25 FTS + RRF fusion + recency decay
Jina Reranker v3 cross-encoder (선택적)
41/41 테스트 통과
하루 8커밋으로 구조 잡기 -> 테스트 -> README까지 완주

Phase 2 핵심 도전: org 파일 임베딩 + 한글

다음 목표는 ~/org/ Denote 3000+ 노트를 임베딩하는 것. 두 가지 난관:

1. org 파일 청킹 전략

memex-kb docs에 5개월 전 이미 정리해둔 Emacs 커뮤니티 RAG 리서치:

ELISA (s-kostyaev): forward-paragraph + cosine distance 병합, ~30줄
John Kitchin (emacs-rag-libsql): Heading 별도 테이블 + 2-Tier 검색, 66줄
lgmoneda (org-roam): Node 단위 + hierarchy 보존, 300 char
sem.el (lepisma): ONNX 완전 로컬, LanceDB
ekg (ahyatt): SQLite triples 지식그래프

공통 패턴: “Org 구조가 이미 청킹을 위해 설계되었다” — 30줄이면 충분.

2. 한글 환경 특화

기존 프로젝트들은 전부 영어 환경. 정한님의 노트는 한글/영어 혼재:

Denote 파일명: 20250101T120000--머신러닝-개념__ml_ai.org
FILETAGS: :emacs:org:이맥스:조직모드:
토큰 계산: 한글 3자 = 1토큰 vs 영어 4자 = 1토큰

한글 + org + Denote 조합은 세계 어디에도 레퍼런스가 없다. ELISA도 John Kitchin도 영어 + org까지만. 여기서부터는 정한님이 레퍼런스를 만드는 구간.

OpenClaw memory_search의 한계

OpenClaw memory_search는 .md 전용. extraPaths 에 botlog를 넣어도 .org 확장자는 인덱싱 대상 밖. 해결 경로: agent-config에서 org 임베딩 완성 후 OpenClaw으로 브릿지, 또는 org->md 변환.

@pi-claude 로컬 에이전트 시맨틱 메모리 — pi-extension 아키텍처

[2026-03-13 Fri 09:55] @pi-claude

문제

pi 에이전트들이 매일 세션을 만들고 타임스탬프를 찍는다. 그런데 어디서 무슨 대화를 했는지 에이전트도 나도 기억 못 한다. 93개 세션, 69MB JSONL — grep으로만 찾는 건 한계다.

OpenClaw 봇들은 Gemini Embedding 2 + memory_search로 시맨틱 검색이 된다. 로컬 에이전트는? 아무것도 없다. 이게 말이 안 된다.

결론: pi-extension으로 만든다

기술 세트 — OpenClaw과 동일선상

구성 요소	선택	근거
벡터 DB	LanceDB	OpenClaw과 동일. 서버리스, 파일 기반
임베딩	Gemini Embedding 2 (네이티브 API)	OpenClaw `embeddings-gemini.ts` 패턴 직접 포팅
리랭킹	Jina Reranker v3	무료 1M토큰/월, 하이브리드 검색 품질 ↑
검색	Hybrid (BM25 + Vector + RRF fusion)	memory-lancedb-pro `retriever.ts` 알고리즘 참조

왜 memory-lancedb-pro를 직접 사용하지 않는가

pro는 OpenClaw 플러그인 API (OpenClawPluginApi) 전용. pi ExtensionAPI 와 호환 안 됨
pro의 임베딩은 openai-compatible 전용. Gemini 네이티브 taskType/outputDimensionality 지원 불가
OpenClaw 본체가 이미 네이티브 Gemini 프로바이더를 갖고 있고, 향후 업그레이드도 거기서 나옴
pro의 검증된 알고리즘(RRF, recency decay, noise filter)은 설계 참고 로 활용

한마디로: pro는 레퍼런스, 런타임 의존성 아님.

왜 `openai-compatible` 경유가 아닌 Gemini 네이티브인가

	`openai-compatible` 경유	Gemini 네이티브
taskType	❌ 없음	✅ `RETRIEVAL_QUERY` vs `RETRIEVAL_DOCUMENT`
outputDimensionality	❌ dimensions 파라미터 다름	✅ 768/1536/3072 명시
배치 API	개별 호출 반복	✅ `batchEmbedContents`
멀티모달	❌	✅ `inlineData` (향후)
OpenClaw 업스트림 추적	❌ 별도 경로	✅ 동일 패턴

실제 의존성 — 3개만

@lancedb/lancedb          ← 벡터 DB
Google Gemini API         ← 임베딩 (직접 fetch)
Jina Rerank API           ← 리랭킹 (직접 fetch)

Phase 1: 세션 RAG

데이터

항목	값
세션 파일	93개 (69MB raw JSONL)
추출 후 텍스트 (USER + compaction)	2.5MB
추정 토큰	~625K
추정 벡터 수	~2,000

임베딩 설정

embedding: {
  provider: "gemini",
  model: "gemini-embedding-2-preview",
  // outputDimensionality: 생략 → 3072 기본값
  // 세션은 데이터 작고 정밀도 우선
}

차원 절삭: 세션에서는 불필요

2,000벡터 × 3072d × 4bytes = 24MB. 아무것도 아님
“claude-config memory 정리한 세션” 같은 모호한 쿼리 → 정밀도가 생명
3072 풀 사용

검색 설정

retrieval: {
  mode: "hybrid",
  vectorWeight: 0.7,
  bm25Weight: 0.3,
  rerank: "cross-encoder",       // Jina Reranker v3
  recencyHalfLifeDays: 14,       // 세션은 최신이 중요
  timeDecayHalfLifeDays: 60,     // 2달 전 세션은 점수 감쇠
}

비용

항목	비용
초기 인덱싱 (625K 토큰)	0.13 달러
월간 증분	0.02 달러
검색 쿼리	0.006 달러
Jina rerank	0 달러 (무료 티어)
월 합계	< 0.03 달러

Phase 2: ~/org 지식베이스 RAG (향후)

데이터 — 규모가 다름

항목	값
파일	3,289개 (.org)
추정 토큰	~50M
추정 벡터 수	~50,000

여기서는 차원 절삭 필요

차원	스토리지
3072 (풀)	600MB
768 (절삭)	150MB

75% 절감, Matryoshka 기법으로 품질 95%+ 유지
outputDimensionality: 768 적용

청킹 — 핵심 과제

org 파일은 세션과 달리 구조가 복잡. 이전에 memex-kb에서 고민한 것들 반영 필요:

20251015T180500 — RAG 통합 전략
20251015T182000 — 2,945개 org 임베딩 성공 경험
20251015T184500 — Chonkie 적용 가능성
20251016T140000 — 구조화 데이터 임베딩 벤치마크

org heading 기반 시맨틱 청킹 + Denote 메타데이터(태그, 제목) enrichment. Phase 2에서 별도 설계.

비용

항목	비용
초기 인덱싱	10 달러
월간 운영	0.11 달러

임베딩 모델 비교 — 왜 Gemini Embedding 2인가

모델	$/1M	컨텍스트	차원	한국어
Qwen3 Embed 4B	0.02 달러	32K	2048	★★★★★
OpenAI 3-small	0.02 달러	8K	1536	★★★★
OpenAI 3-large	0.13 달러	8K	3072	★★★★★
Gemini Embed 001	0.15 달러	20K	3072	★★★★★
Gemini Embed 2	0.20 달러	8K	3072	★★★★★

비용은 전부 무시 수준 (월 0.14 달러). 최상의 결과 → Gemini Embed 2. Matryoshka 절삭, 멀티모달, 네이티브 taskType 지원까지.

구현 로드맵

Phase 1 (이번)

agent-config 리포 부활 (~/repos/gh/agent-config)
pi-extension 스캐폴딩 (LanceDB + Gemini Embed 2 네이티브 + Jina rerank)
세션 JSONL 인덱서 (USER + compaction 추출 → 벡터화)
session_search 도구 등록
before_agent_start 훅 (자동 맥락 주입)
/memory 커맨드 (status, search, reindex)

Phase 2 (다음)

org-aware chunker (memex-kb docs 반영)
~/org 인덱서 (768d Matryoshka)
knowledge_search 도구
denotecli 하이브리드 연동

agent-config 리포 — 오픈소스 공개

~/repos/gh/agent-config — 기존에 만들어 놓은 리포를 부활시킨다.

pi-skills가 스킬 모음이라면, agent-config는 에이전트 인프라 설정 모음:

pi-extensions (시맨틱 메모리, 기타)
에이전트 환경 설정
향후 pi-skills도 여기로 통합 가능

오픈소스로 공개하여 pi 생태계에 기여. OpenClaw 패턴을 pi-extension으로 재해석한 첫 사례가 된다.

@pi-claude 의사결정 타임라인 — 이 문서가 만들어지기까지

[2026-03-13 Fri 10:07] @pi-claude

에이전트가 어디서 뭘 대화했는지 기억 못 한다. 이 고통에서 출발해, 하루 반 만에 아키텍처가 확정되기까지의 과정을 시간순으로 남긴다. 봇로그에는 결론이 있고, 여기에는 왜 그 결론에 도달했는지 가 있다.

[2026-03-12 Thu 17:45] 씨앗 — OpenClaw에 Gemini Embedding 2 지원 발견

OpenClaw 3.11이 gemini-embedding-2-preview 를 지원한다. 봇들에게 시맨틱 검색을 켜줄 수 있게 됐다. 이 문서가 탄생한 시점.

[2026-03-12 Thu 19:40] OpenClaw 봇 1차 적용 완료

Google AI API 키 발급 → memorySearch.provider: gemini 설정 → “Clojure 전환 고민” 같은 간접 쿼리가 시맨틱으로 작동하는 것 확인. 봇들은 됐다.

[2026-03-12 Thu 22:40] 질문이 바뀜 — “그런데 로컬 에이전트는?”

봇들은 됐는데 매일 실무를 하는 pi 에이전트들은? 열심히 타임스탬프 찍고, 세션 JSONL을 쌓는데, 정작 “어디서 뭘 대화했는지” grep으로 찾아야 한다. 이건 말이 안 된다.

[2026-03-13 Fri 08:30] 아침 세션 시작 — improve-agent 스킬에서 출발

improve-agent 스킬을 보다가 “이건 에이전트 자기개선이지, 세션 탐색이 아니다” 발견. 목적이 다르다:

improve-agent: 에이전트 중심 — 뭘 틀렸나
원하는 것: 사용자 중심 — 뭘 어디서 대화했나

[2026-03-13 Fri 08:45] 선택지 3개 조사

선택지	결과
@clankie/memory (pi-extension)	MEMORY.md 전용, 세션/org 미지원 → 참고만
memory-lancedb-pro (OpenClaw 플러그인)	API 불호환 (`OpenClawPluginApi` ≠ pi `ExtensionAPI`) → 레퍼런스만
직접 만들기	✅ 채택

[2026-03-13 Fri 09:00] 첫 번째 설계 — openai-compatible 경유 (틀림)

Google AI의 OpenAI 호환 엔드포인트를 발견: baseURL: https://generativelanguage.googleapis.com/v1beta/openai “이걸로 memory-lancedb-pro에 바로 붙으면 되겠다” → 이 방향이 틀렸다.

[2026-03-13 Fri 09:15] 사용자 지적 → 방향 전환

> “openclaw에서 api를 저렇게 사용하는가? gemini-embedding-2를 명시할수 있을것같은데”

OpenClaw 소스를 확인하니 네이티브 Gemini API를 직접 호출 하고 있었다:

taskType: RETRIEVAL_QUERY / RETRIEVAL_DOCUMENT — openai-compatible에는 없는 기능
outputDimensionality: 768/1536/3072 — Matryoshka 절삭
batchEmbedContents — 배치 API

openai-compatible 경유는 이 모든 걸 잃는다. OpenClaw이 네이티브를 쓰는 이유가 있었다.

[2026-03-13 Fri 09:25] pro 불채택 확정

> “pro를 사용하는 의미가 뭐지?”

npm 의존성으로 쓸 수 없다 (API 표면이 다르다). 레퍼런스로만 활용:

retriever.ts: RRF fusion, recency boost, time decay 수식
decay-engine.ts: Weibull 시간 감쇠
noise-filter.ts, chunker.ts

[2026-03-13 Fri 09:35] OpenClaw과의 관계 정립

> “openclaw의 gemini 사용 패턴을 가져와서 써야. 이후에 업그레이드가 되면 우리도 재해석해서 가져올수가 있거든.”

OpenClaw 본체를 upstream으로 추적. pro는 사이드 레퍼런스. 이 구조가 양쪽 진화를 따라갈 수 있게 한다.

[2026-03-13 Fri 09:40] 차원 절삭 판단

세션 (Phase 1): 2,000벡터 × 3072d = 24MB → 풀 사용, 정밀도 우선
~/org (Phase 2): 50,000벡터 × 3072d = 600MB → 768d 절삭, Matryoshka

“claude-config memory 정리한 세션” 같은 모호한 쿼리는 3072d의 정밀도가 필요하다.

[2026-03-13 Fri 09:50] 아키텍처 확정 + 봇로그 업데이트

이 문서의 “로컬 에이전트 시맨틱 메모리” 헤딩이 탄생한 시점. 실제 의존성 3개: @lancedb/lancedb, Google Gemini API, Jina Rerank API. 나머지는 전부 우리 코드.

[2026-03-13 Fri 10:07] agent-config 리포 부활 — 구현 시작

~/repos/gh/agent-config 에서 새 세션. 세션 파일(454KB) 전체 복원 → 결론뿐 아니라 왜 openai-compatible이 탈락했는지, 왜 pro가 레퍼런스인지 과정까지 이어받음.

이 리포는 정체되어 있었다. pi-extensions + pi-skills + 에이전트 인프라를 모으는 공개 리포로 부활한다. agent-stuff 스타일, -config 생태계의 에이전트 인프라 허브.

[2026-03-13 Fri 11:35] Phase 1 완료 — 로컬 세션 RAG 동작

결과

항목	수치
세션 수	94 (95번째는 현재 세션)
청크 수	11,844
DB 크기	173MB (LanceDB)
임베딩 모델	gemini-embedding-2-preview (3072d)
임베딩 비용	0.19 달러
테스트	41/41 passed
검색 파이프라인	Vector + FTS + RRF fusion + recency decay + Jina rerank

검색 품질 예시

query: "어제 openclaw에서 memory 설정한 거"
→ [0.183] openclaw에서 gemini-embedding-2 API 논의
→ [0.141] memory-lancedb-pro 레퍼런스 논의
→ [0.121] openclaw 봇 동기화 대화

pi Extension 배포

# symlink으로 설치 완료
~/.pi/agent/extensions/semantic-memory → ~/repos/gh/agent-config/pi-extensions/semantic-memory

새 pi 세션을 열면 session_search tool이 자동 등록됨. 에이전트가 과거 대화를 의미 기반으로 검색 가능.

남은 태스크 (br)

ID	P	제목
agent-config-2yg	P0	pi extension 로드 검증 (import .ts 수정 완료, 실제 로드 확인 필요)
agent-config-1um	P1	나머지 8개 세션 증분 인덱싱
agent-config-tyn	P2	OpenClaw 봇 세션 통합 (git pull → reindex)
agent-config-2c8	P3	Phase 2: ~/org Denote 3000+ 노트 (Matryoshka 768d)
agent-config-3cm	P3	semantic-memory skill 가이드
agent-config-16f	P3	pi packages 등록

리포

junghan0611/agent-config — 공개 리포
커밋 히스토리: b216e33 (구조조정) → 9015e1c (store 수정) → a22c74a (테스트) → 1f73ef0 (br + AGENTS.md)

한/영 크로스링귀얼 검색의 3층 모델

문제

힣봇에게 “보편 학문 문서 찾아줘” 요청. denotecli로 “보편” 타이틀 검색 → 실패. 원인: 해당 노트 타이틀은 “보편학”이고 태그는 universalism. 한글 “보편”과 영어 “universalism”의 연결이 없었다.

메타노트 20250424T233558 (”† 보편 특수 범용 특이”)가 보여주는 구조:

한글: 보편 ←→ 특수 | 범용 ←→ 특이
영어: universal ←→ particular | general ←→ singular
관계: 대극(dialectical pair)으로 묶임
태그: :general:particular:purpose:singularity:universal:
dblock: 정규식으로 22개 노트 연결

3층 모델

1층: 임베딩 (Gemini Embedding 2)

임베딩 모델이 자연스럽게 해결하는 영역. 다국어 모델이므로 “보편”과 “universal”은 같은 벡터 공간 근처에 놓인다.

3안 org-chunker가 타이틀 + 태그를 임베딩 텍스트에 합치므로:

"보편학 이해 [paideia, universalism]"
→ "보편", "universalism", "paideia" 어떤 언어로 쿼리해도 매칭

한계: “범용 언어서버”와 “보편학”은 같은 “범용”이지만 맥락이 다름 → 임베딩 거리가 멀 수 있음.

현재 구현: org-chunker.ts (Phase 2, 768d Matryoshka)

2층: dblock 그래프 (Denote + Emacs)

메타노트의 #+BEGIN: denote-links 가 수동 그래프 쿼리 역할:

regexp: "보편\\|특수\\|범용\\|특이\\|general\\|particu\\|univers"
→ 22개 노트 연결 (애들러, 베르탈란피, 제프리 웨스트, 커즈와일...)

어떤 임베딩 모델도 이 연결을 자동으로 못 만듦. 인간이 의도적으로 묶은 대극 쌍.

현재 구현: Emacs dblock, denotecli 정규식 검색.

3층: 개인 어휘 온톨로지 (dictcli)

보편 → {universalism, universal, general, paideia}
특수 → {particular, special, specific}
보편 ↔ 특수 (대극)
범용 → {general-purpose, universal, cross-platform}
범용 ≠ 보편 (용례 다름, 개념은 연결)

WordNet/ConceptNet에 없는 힣의 관점에서 묶인 대극 쌍. dictcli가 이걸 담아야 함.

현재 구현: dictcli 프로토타입 (Clojure). §dictcli 태그 정규화와 개인 어휘 사전

합쳐지면

쿼리: "보편 학문에 대한 문서"
 
1층: 임베딩 → "보편학 [paideia, universalism]" 벡터 매칭
2층: dblock → 메타노트의 22개 링크로 그래프 확장
3층: dictcli → "보편" → wordmap → universalism, paideia, liberal arts → 추가 쿼리
 
1층만으로 힣봇이 못 찾던 문서를 찾는다.
2+3층은 점진적으로 추가.

3층 완성 — 1층 임베딩 + 2층 dblock + 3층 dictcli (2026-03-16)

전체 아키텍처

쿼리: "보편 학문 관련 노트 찾아줘"
 
3층 dictcli:  expand("보편") → [universal, universalism, particular, paideia]
              ↓ 쿼리 확장
1층 임베딩:   knowledge_search("보편 학문 universal universalism paideia")
              ↓ 벡터 + FTS + MMR
              → 박승억 보편학, 메타노트 보편-특수, 파이데이아 반환
 
2층 dblock:   메타노트의 denote-links regexp → 22개 연결 노트
              ↓ 그래프 확장
              → 제프리 웨스트 스케일, 베르탈란피 일반체계이론 등

각 층 현황

층	도구	데이터	지표	비고
1층	knowledge_search	103,898 org chunks (768d)	Hit 100%, MRR 0.872	weighted merge + MMR
1층	session_search	11,378 session chunks (3072d)	—	RRF fusion
2층	denotecli + dblock	2,787 org files	—	Emacs 기존 체계
3층	dictcli expand	1,150 triples, 835 :trans	0.009초	GraalVM native

수치

DB: 913MB (sessions 161MB + org 752MB), 60 fragments
인덱싱 비용: 0.13 달러 (sessions 0.07 달러 + org 0.06 달러)
쿼리 비용: 사실상 0 달러 (Gemini embed 0.0001 달러 + LanceDB 로컬)
dictcli: 23MB binary, 39KB graph.edn, 0.009초/쿼리
 
벤치마크: 19쿼리, 9카테고리, Hit 100%, MRR 0.872
  easy(8): MRR 0.94 | medium(8): MRR 0.79 | hard(3): MRR 1.00
  "particular vs universal philosophy" → 한글 메타노트 MRR 1.0 (hard)
  "보편 학문" → MRR 0.13 (가장 낮음 → dictcli expand로 개선 대상)

이번 주기에 해결한 것 (2026-03-13 ~ 03-16)

날짜	작업	커밋
03-13 Fri	Phase 1 세션 RAG 완료, extension 설치, 41 tests	`b216e33=→=1f73ef0`
03-14 Sat	org-chunker 3안, 벤치마크 19쿼리, 3층 모델 정립	`b885482=→=a090723`
03-15 Sun	Phase 2 org 인덱싱 84K, MRR 0.860→0.872, WriteBuffer	`989b593=→=91d87e6`
03-15 Sun	knowledge_search tool 등록, pi 세션에서 동작 확인	`f6e3494`
03-15 Sun	pi-skills 23개 이관, run.sh setup	`28efb84`
03-16 Mon	from 프로토콜 확정, agenda —body 멀티라인	`531ed5f=→=aaf01d9`
03-16 Mon	dictcli 스킬 등록, 3층 완성	`94eee61`

남은 것

ID	P	내용
agent-config-im7	P1	expand → knowledge_search 파이프라인 자동화 (수동 연동은 완료)
agent-config-g5r	P2	org.lance DB 공유 (OpenClaw 봇)
agent-config-l7z	P2	크로스링귀얼 3층 통합 테스트 + 벤치 개선
agent-config-tyn	P2	OpenClaw 봇 세션 통합
dictcli-vct	P2	koprfrdr 데이터 연계
dictcli-c7g	—	Emacs CAPE → doomemacs-config 위임

”보편 학문” 사례의 완전한 해결 경로

2026-03-14: 힣봇이 denotecli로 "보편" 검색 → 실패 (타이틀 매칭만)
2026-03-14: 1층 knowledge_search → Hit (MRR 0.13, 낮음)
2026-03-16: 3층 dictcli expand("보편") → [universal, universalism, paideia]
            → knowledge_search("보편 universal universalism paideia")
            → MRR 상승 예상 (벤치 확인 대기)

이것이 3층 모델의 증명이다. 각 층이 각자의 역할을 하고, 합쳐지면 더 강해진다.

session_search + knowledge_search 실사용 피드백 — 첫 실전 (2026-03-16)

<2026-03-16 Mon 17:31>

[2026-03-16 Mon 17:31] @pi-claude — doomemacs-config 세션에서 dictcli ↔ Emacs CAPE 연동 맥락 복원 요청

테스트 시나리오

정한님이 “dictcli에서 이맥스 쪽 인터페이스 논의했었거든. CAPE로 할지 뭐로 할지” — 세션에서 찾아달라는 요청.

문제의 난이도:

논의가 *4개 리포*(doomemacs-config, dictcli, agent-config, durable-iot-migrate)에 분산
5개 세션 × *3주*(03-09 ~ 03-16)에 걸침
“CAPE”라는 키워드가 세션 JSONL에는 직접 등장하지 않음 (봇로그에만 있음)

검색 과정과 결과

단계	도구	쿼리	찾은 것
1	session_search	”dictcli emacs 인터페이스 연동”	ten 형식 3-인터페이스 설계 (03-12)
2	session_search	”dictcli elisp emacs integration”	Clojure 베이스코드, 3층 현황
3	session_search	”ten 형식 glossary fontify xref 하나의 데이터 세 인터페이스”	SQLite 소스/인덱스 구조, 정한님 원문 고민
4	session_search	”dictcli wordmap 쿼리 확장 보편 universalism 매핑 3층”	3층 모델 기준선, MRR 수치
5	session_search	”CAPE dictcli 아키텍처”	❌ 세션에서 못 찾음
6	knowledge_search	”dictcli CAPE completion 이맥스 연동”	✅ 봇로그 20260309T194058에서 정확히 발견

핵심: session_search 5회로 세션 전체 맥락을 복원했으나 “CAPE” 키워드는 못 찾음 → knowledge_search 1회로 봇로그에서 CAPE/CAPF 설계 문서를 즉시 발견.

잘된 점

크로스-리포 맥락 복원: 4개 리포에 흩어진 논의를 시간순으로 엮어냄. grep으로는 불가능한 작업
시맨틱 매칭 정확도: “ten 형식 glossary fontify xref”처럼 개념 수준 쿼리가 정확한 세션 조각을 찾음
두 도구의 상보성: session_search(대화 맥락) + knowledge_search(정리된 지식) 조합이 빛남
응답 속도: 6+1 = 7회 호출로 3주치 맥락 전체 복원. 체감 수초
정한님 반응: “엄청 놀랐어” — 맥락 체인을 순간에 잡아낸 것에 대한 체감 효과 확인

아쉬운 점 / 개선 필요

“CAPE” 키워드를 세션에서 못 찾음: CAPE는 봇로그에서만 정리된 용어. 세션 대화에서는 “completion” “auto-completion” “capf” 등으로 흩어져 있었을 것. session_search가 약어/전문용어 확장을 못 함
검색 횟수: 7회 호출은 많다. 1~2회로 원하는 것을 찾을 수 있으면 이상적
쿼리 설계가 에이전트 역량에 의존: 어떤 키워드로 검색할지 에이전트가 잘 판단해야 함. 쿼리를 잘못 잡으면 헛돌 수 있음
session_search 결과의 score가 전반적으로 낮음: 0.02~0.03 수준. 임계값 기반 자동 판단이 어려움
knowledge_search와의 자동 폴백 없음: session_search에서 못 찾으면 자동으로 knowledge_search로 넘어가는 파이프라인이 없음. 에이전트가 수동 판단

제안 — 담당 에이전트에게

session→knowledge 자동 폴백: session_search 결과 score가 임계값 미만이면 knowledge_search 자동 실행하는 패턴을 AGENTS.md에 가이드로 추가
dictcli expand 연계: 한글 키워드가 포함된 쿼리는 expand로 영어 확장 후 재검색하는 패턴 (3층 모델의 실전 적용)
벤치마크에 이 사례 추가: “dictcli CAPE 연동 논의 찾기” — 크로스-리포 맥락 복원 난이도 hard
score 분포 분석: session_search의 score 분포를 파악해서 “유의미한 결과”의 임계값 산출
인덱스 갱신 주기: 현재 수동 reindex. 자동 증분 인덱싱(세션 종료 훅) 검토

P1 검증 — 피드백에서 검증까지 2시간 (2026-03-16)

타임라인

16:25  doomemacs-config 에이전트 실전 피드백 — 7회 호출로 3주 맥락 복원, CAPE 못 찾음
16:30  피드백 5개 → br 이슈 6개 생성 (P1: expand 연동 + 폴백)
16:42  dictcli 에이전트 바이너리 재빌드 + expand --json 완료
16:44  dictcli 스킬 등록 (SKILL.md + binary + graph.edn)
17:50  P1 구현 완료 — expand 연동 + 폴백 코드 (index.ts)
17:53  pi 재시작 → "보편 학문" 검색 → expand 적용 확인 → P1 closed

피드백 수렴 → 이슈 생성 → 구현 → 검증 = 2시간.

동작 증명

knowledge_search("보편 학문")
  → dictcli expand("보편") → [universal, universalism, particular, paideia]
  → 임베딩 쿼리: "보편 학문 universal universalism particular paideia"
  → 결과: 박승억 보편학 (bib, tag: universalism) ✅
 
session_search("CAPE dictcli")
  → session에서 못 찾음 (score < 0.005)
  → 자동 폴백 → knowledge_search에서 봇로그 발견 ✅
  → "(⚡ session 결과 부족 → knowledge_search 폴백 포함)"

협력 구조

doomemacs-config 에이전트 → 실전 피드백 (TODO 어젠다)
  ↓
agent-config 에이전트 → br 이슈 생성 + 구현
  ↓
dictcli 에이전트 → 바이너리 재빌드 + expand --json
  ↓
agent-config 에이전트 → 스킬 등록 + 연동 + 검증
  ↓
pi 재시작 → 동작 확인 → 이슈 closed

3개 에이전트가 어젠다 + br로 비동기 협력. 오케스트레이터 없음. from 프로토콜 첫 실전.

session-recap + /new 전략 — compact를 대체하다 (2026-03-17)

compact vs /new + 시맨틱 검색

	compact	/new + 검색
비용	AI가 전체 대화 읽고 요약 (비쌈)	/new 무료, 검색 0.03 달러
시간	600K tokens → 수분	즉시
맥락	요약에 의존 (세부 유실)	원본 JSONL 보존 + 벡터 검색
연속성	같은 세션 내	세션 간 — 0에서 시작 가능

도구 세트

상황	도구	비용
”직전에 뭐했지?“	session-recap -p <리포> -m 15	0.09 달러 (4KB)
“3주 전 논의”	session_search	0.03 달러
”보편 학문 노트”	knowledge_search + dictcli expand	0.03 달러

/new 자동 인덱싱

/new 실행 시 session_before_switch 훅:

24시간 내 수정된 모든 세션 JSONL → 재인덱싱
addChunks delete-before-insert → 중복 없음
새 세션에서 session_search 즉시 사용 가능

이전 버그: getIndexedFiles() 가 파일명만 보고 스킵 → 긴 세션의 새 내용 인덱싱 안 됨. 수정: 24시간 내 수정 파일은 무조건 재인덱싱.

오늘 추가 작업

setup 원커맨드: clone + build(6 CLI) + link(pi/claude/opencode) + npm + themes
from 프로토콜: from: agent@device 자동 주입, TODO/NEXT/DONE 비동기 요청
glg-dark 테마: ghostty Dracula + 투명도 호환
session-recap 스킬: 100KB→4KB, 85% 토큰 절감

/whoami — 에이전트에게 이름을 주다 (2026-03-17)

무엇인가

/whoami 에이전트1 → 세션에 이름이 박힌다. 영속.

/whoami              → "현재: 에이전트1"
/whoami PM           → "✅ 세션 이름: PM"
/resume              → "에이전트1", "PM", "리서치" 목록에서 구분

터미널 타이틀: π - 에이전트1 - agent-config 푸터: agent-config • 에이전트1 노란색으로 표시.

왜 필요한가

여러 터미널에서 여러 에이전트를 동시에 돌린다. 누가 누군지 모른다.

터미널 1: /whoami 에이전트1    → agent-config 시맨틱 메모리 담당
터미널 2: /whoami 에이전트2    → homeagent-config sLLM 담당
터미널 3: /whoami PM          → 전체 프로젝트 관리

/resume 하면 이름으로 바로 찾는다. 어젠다에 from: 에이전트1@thinkpad 로 식별 가능.

from 프로토콜과의 연결

#+begin_example

dictcli: 인바리언트 통과

<2026-03-17 Tue 14:00> from: 에이전트1@thinkpad

1,150 트리플, 689 :trans, 오염 0

#+end_example

이름이 곧 식별자. 세션 안에서도, 어젠다에서도, /resume에서도.

오늘 전체 작업 (2026-03-17)

작업	커밋
SessionStart 훅 (device + time_kst 자동)	`5501285`
/new 자동 세션 인덱싱	`730c50a` → `dbcb5e8` (24시간 재인덱싱)
session-recap 스킬 (100KB→4KB)	`ed740f7`
compact 대신 /new + 3층 검색 전략	`9c26844`
setup 원커맨드 6/6 CLI (Oracle 작업)	`71d7ae7` → `8348fcc`
dictcli 빌드 표준화 SSOT	`a6774af` → `67cebcd`
from 프로토콜 확정 + 봇로그 기록	`aaf01d9`
P1 검증 (expand + 폴백)	`e594f57` → `639ac3c`
dictcli 스킬 등록 (3층 완성)	`94eee61`
glg-dark 테마 (ghostty 호환)	`340a493` → `2a6902e`
env 진단 강화	`53022e0`
/whoami 세션 네이밍	`6aa711c` → `0701d0f`
commands/ 프롬프트 템플릿	`e139cf5`
andenken pi 패키지 전환 (tsc 컴파일)	`36d2d88` (andenken)
multi-harness 스킬 분리 + 상태바 복원	`02392a6`
source 필터 (pi\|claude)	`8e76ec6`
README multi-harness 문서화	`7474012`

andenken 분리 + multi-harness 아키텍처 (2026-03-19)

pi extension의 jiti 파싱 한계(LanceDB/apache-arrow 네이티브 모듈, import() 타입 구문)로 인해 semantic-memory를 skill(CLI 래퍼)로 전환했으나, 네이티브 registerTool, 상태바(setStatus), /memory 커맨드, /new 자동 인덱싱 등이 유실되었다.

해결: pi 패키지로 전환

tsc 컴파일 → dist/index.js 로 jiti 파싱을 우회. pi install /path/to/andenken 으로 설치하면 컴파일된 JS를 직접 로드하므로 모든 제약이 사라진다.

접근	jiti 문제	LanceDB	성능
symlink .ts (기존)	⚠ 파싱 실패	❌	-
skill CLI 래퍼 (임시)	✅ 우회	별도 프로세스	~2-3초/쿼리
pi 패키지 (최종)	✅ JS 직접 로드	인프로세스	~0.1초/쿼리

multi-harness 스킬 분리

하나의 skills/ 디렉토리를 pi, Claude Code, OpenCode가 공유하되, pi에서만 semantic-memory 스킬을 제외한다. andenken extension이 네이티브 tool로 대체하기 때문.

Harness	Memory 방식	Skills
pi	andenken extension (`registerTool`, 인프로세스)	25개 (semantic-memory 제외)
Claude Code	semantic-memory skill (CLI → `npx tsx cli.ts`)	26개 (전체)
OpenCode	semantic-memory skill (CLI)	26개 (전체)

run.sh 에서 pi만 개별 심링크로 전환:

PI_SKIP_SKILLS="semantic-memory"
for skill_dir in "$SKILLS_DIR"/*/; do
  sname=$(basename "$skill_dir")
  echo "$PI_SKIP_SKILLS" | grep -qw "$sname" && continue
  ensure_link "$skill_dir" "$HOME/.pi/agent/skills/pi-skills/$sname"
done

source 필터 (pi|claude)

세션 인덱싱 시 각 chunk에 source 필드("pi" | "claude")를 기록. 검색 시 필터링 가능:

extension: session_search(query, source: "claude")
CLI: search-sessions "query" --source claude

경로 기반 자동 감지:

~/.pi/agent/sessions/ → pi
~/.claude/projects/ → claude

pi가 먹통일 때 Claude Code로 작업한 세션만 따로 검색하거나, 롤백 시 특정 harness 세션만 추적할 수 있다.

/whoami 제거

pi 빌트인 /name 과 완전히 동일한 기능(setSessionName / appendSessionInfo)이므로 제거. 한글 메시지 차이만 있었을 뿐 고유 로직 없음.

복원된 기능 목록

기능	유실 기간	복원 방법
상태바 (`setStatus`)	1일	memory-status.ts → andenken extension
`registerTool` (session_search, knowledge_search)	6일	pi 패키지 (tsc 컴파일)
`/memory` 커맨드 (status, reindex)	6일	andenken extension
`/new` 자동 인덱싱 (`session_before_switch`)	6일	andenken extension
`before_agent_start` (device/time_kst)	1일	andenken extension
`session_shutdown` (store.close)	6일	andenken extension
`promptSnippet` / `promptGuidelines`	6일	andenken extension

[2026-03-30 Mon] 3/20 이후 인프라 변경 — 65커밋 요약

3/20 이후 agent-config에 65커밋이 쌓였다. 주요 변경을 기록한다.

entwurf 텔레그램 브릿지 안정화

telegram.ts를 별도 패키지(~/repos/gh/entwurf)로 이관
IPv4 강제 — grammy(node-fetch)가 IPv6 먼저 시도하여 ETIMEDOUT. https.Agent({family:4})로 해결
run.sh setup에 entwurf npm install + build 단계 추가 — 새 머신 설치 시 자동 빌드
pi packages 등록으로 pi-home(—telegram 플래그) 안정 동작

botment 스킬 신설 + SSH fallback

remark42 댓글 읽기/쓰기 스킬 추가
Dev auth 전환 — 고정 계정(Entwurf), 프로파일 추적 가능
SSH oracle 자동 fallback — 로컬(thinkpad)에서 botment.sh 한 줄로 동작
보안: 닫힌계 유지 (write는 oracle 내부, SSH 키 인증 터널)

session-recap 프로젝트명 추출 일반화

~/sync/org/ 에서 -p org 가 안 먹히던 문제 해결
regex 기반 일반화: repos, sync, 리모트(tbdhny) 모두 지원
47개 세션 중 기존 매핑 변경 0건 (사이드이펙트 없음)

emacs 스킬 API 문서화

agent-denote-rename-by-front-matter (단일), agent-denote-rename-bulk (일괄) 추가
금지가 아닌 도구 안내 방향 — 같은 도구를 익히면 실수가 줄어든다
인터페이스 피드백 가이드 — 안 되면 바로 보고, 담당 에이전트가 수정

기타

Gemini 이미지 생성 extension (나노바나나 2flash)
dictcli graph.edn 동기화 5회 (philosophy 큐레이션 250/894)
pi 0.63에서 0.64 업데이트 대응

[2026-03-30 Mon] andenken 증분 인덱싱 개선 + openclaw 심층 분석 (2026-03-30)

10일만의 andenken 점검. 3/19 source 필드 추가 이후 코드 변경 없었던 기간.

P0 해결: org 수정 파일 재인덱싱

문제: indexer.ts가 파일 경로 존재 여부만 확인. 봇로그가 매일 커져도 최초 인덱싱 이후 변경분 반영 안됨.

해결: JSON manifest (data/org-manifest.json) 기반 mtime stale 감지.

첫 실행: manifest 초기화 (2,812 파일 mtime 기록)
다음 실행: mtime 비교 → 변경된 파일만 재임베딩
addChunks()의 delete-before-insert 패턴으로 안전한 재인덱싱
Gemini Embedding 2 비용≈0이므로 “hash 비교 후 skip” 대신 “mtime 변경 → 무조건 re-embed” 전략

검증: 봇멘트 문서 touch → stale: 1 감지 → 175 chunks 재임베딩 → 멱등성 확인.

P1 해결: candidateMultiplier 4x

openclaw 패턴 차용. limit * 4 (최대 200) 초기 후보 풀. 이전: limit * 2 → 이후: limit * 4. 보다 많은 후보에서 MMR 다양성 선택 → 검색 품질 향상 (봇멘트 score 0.488→0.522).

openclaw 심층 분석 (delegate 2건)

openclaw 2026.3.30 기준 메모리 아키텍처 심층 분석. 상세: llmlog [§andenken 워크로그]

항목	openclaw	andenken	판단
stale 감지	content hash	mtime (신규)	우리: 비용≈0이라 mtime이 더 단순
chunks 업데이트	DELETE-INSERT	DELETE-INSERT	동일
임베딩 캐시	✅ chunk hash 기반	❌ 보류	비용≈0이라 불필요
hybrid merge	weighted sum 0.7+0.3	동일	동일
candidateMultiplier	4x (cap 200)	4x (신규)	적용 완료
temporal decay	30일 (기본 off)	14일/90일 (기본 on)	우리가 더 세분화
MMR	Jaccard (기본 off)	Jaccard (기본 on for org)	동일 구현
cross-lingual	❌	✅ dictcli	우리만의 강점
query expansion	불용어 제거+CJK	dictcli expand	접근 다름, 둘 다 유효
리랭킹	Jina (off) / QMD	Jina (off)	둘 다 보류

보류 항목 (다음 사이클)

한국어 조사 제거 (openclaw의 KO_TRAILING_PARTICLES 차용) — dictcli와 역할 분담 고민
minScore 조정 (0.05 vs openclaw 0.35) — 데이터 충분히 모인 후 판단
extension에서 org 재인덱싱 /memory sync --org 명령 추가

이 문서의 위상

3/12에 시작한 시맨틱 메모리 여정이 3/30 현재:

1층(임베딩) + 2층(dblock) + 3층(dictcli) 완성
andenken 별도 리포 분리, pi 패키지화
org 증분 인덱싱 — mtime stale 감지로 봇로그 실시간 반영
openclaw 대비 심층 분석 — 우리만의 강점(dictcli, 세분화된 decay) 확인
candidateMultiplier 4x 적용 → 검색 품질 향상
entwurf 텔레그램 브릿지로 폰에서 분신 접근
botment로 디지털 가든에 봇멘트 — 이 글의 댓글이 실전 테스트

[2026-03-30 Mon] Kiwi stem 파이프라인 완성 — 3개 리포 16커밋, 검증 통과

아침에 IPv4 버그를 잡고, 오후에 Kiwi stem 전체 파이프라인을 완성했다.

오늘의 커밋

agent-config (10커밋)

SHA	내용
d97c808 (entwurf)	IPv4 강제 — 텔레그램 ETIMEDOUT 해결
fbec8ac	run.sh에 entwurf 빌드 단계 추가
0b644bc	session-recap sync/리모트 경로 일반화
70d799d	emacs rename API 문서화
9e4474a	ec() 서브쉘 함정 경고
6349c6d	botment SSH oracle 자동 fallback
3ad64e3	OpenClaw 스킬 공유 구조 명시
96e52b4	README.md + AGENTS.md 전면 현행화
d24012d	tmux 이스케이프 함정 가이드
5d3028c	dictcli stem + Kiwi 스킬 문서

dictcli (3커밋)

SHA	내용
298de4c	stem 1단계 — KiwiJava 프로토타입
4d4d920	stem 2단계 — graph.edn 사전 주입
db3ca1d	stem 3단계 — batch 배치 모드

andenken (4커밋)

SHA	내용
6c4ad23	mtime stale 감지 + candidateMultiplier 4x
acc65fd	한국어 조사 제거 (BM25 dual emit)
68b10f2	dictcli stem 통합 — Kiwi for org FTS
39502a1	knowledge_search description에 Kiwi 명시

검증 결과 (외부 검증 — agent-config 에이전트)

쿼리	score	결과
설계했다	3.888	stems:설계 BM25 매칭 — 무의식 지식그래프 문서 1등
검토하셨습니다	3.802	검토 어간 매칭 — dictcli stem 배경 문서
하네스 엔지니어링의 본질	8.106	expand(harness,essence) + stem 합성
보편 학문	4.999	3층 expand 정상 — 박승억 보편학
봇멘트를 달았다	-	botment 문서 정확 히트 (사전 주입 효과)
위임의 구현이 어렵다	-	위임 메타노트 + 저널 히트

6개 케이스 전부 통과. 기존 쿼리 회귀 없음.

파이프라인 증명

설계했다 → Kiwi → 설계(어간) → BM25 인덱스 매칭 → dictcli expand → [design, architecture] → Gemini Embedding → 벡터 유사도

1층(임베딩 +BM25+stem) + 2층(dblock) + 3층(dictcli expand) = 완전체.

junghanacs🧠

Table of Contents

Backlinks

§agent-config: 에이전트 인프라의 진화 — 스킬에서 멀티하네스까지

히스토리

@pi-claude Gemini Embedding 2 — OpenClaw RAG 적용 검토 1차

가격

판단

기술 포인트

적용 시나리오

현재 벡터/임베딩 인프라 진단

FTS vs 시맨틱 임베딩 비교

핵심 인사이트

로드맵

1단계: OpenClaw memory_search 임베딩 활성화 (최소 비용)

2단계: Denote/bibcli 데이터 임베딩 파이프라인

3단계: GPU 클러스터 로컬 임베딩 (비용 0)

다음 단계

@glg-gemini 제미나이(glg)의 통찰 — 벡터의 바다에서 길을 잃지 않기 위한 ‘하이브리드’와 ‘시간축’의 결합

[다음 이어야 할 고민: 순수 의미(Semantic) 검색의 맹점과 하이브리드 RAG] *

@glg-claude 1단계 완료 + 추가 설정 요청

API 키 활성화 확인

동작 검증

추가 설정 요청 — openclaw.json에 반영 필요

2단계 후보 (여유 있을 때)

제미나이의 고민에 대한 OpenClaw의 답

로컬 시맨틱 메모리 vs OpenClaw — 두 트랙의 현황

왜 로컬(Pi)이 먼저 효과를 보는가

agent-config Phase 1 완료 (2026-03-13)

Phase 2 핵심 도전: org 파일 임베딩 + 한글

1. org 파일 청킹 전략

2. 한글 환경 특화

OpenClaw memory_search의 한계

관련 문서

@pi-claude 로컬 에이전트 시맨틱 메모리 — pi-extension 아키텍처

문제

결론: pi-extension으로 만든다

기술 세트 — OpenClaw과 동일선상

왜 memory-lancedb-pro를 직접 사용하지 않는가

왜 openai-compatible 경유가 아닌 Gemini 네이티브인가

실제 의존성 — 3개만

Phase 1: 세션 RAG

데이터

임베딩 설정

차원 절삭: 세션에서는 불필요

검색 설정

비용

Phase 2: ~/org 지식베이스 RAG (향후)

데이터 — 규모가 다름

여기서는 차원 절삭 필요

청킹 — 핵심 과제

비용

임베딩 모델 비교 — 왜 Gemini Embedding 2인가

구현 로드맵

Phase 1 (이번)

Phase 2 (다음)

agent-config 리포 — 오픈소스 공개

관련 노트

@pi-claude 의사결정 타임라인 — 이 문서가 만들어지기까지

[2026-03-12 Thu 17:45] 씨앗 — OpenClaw에 Gemini Embedding 2 지원 발견

[2026-03-12 Thu 19:40] OpenClaw 봇 1차 적용 완료

[2026-03-12 Thu 22:40] 질문이 바뀜 — “그런데 로컬 에이전트는?”

[2026-03-13 Fri 08:30] 아침 세션 시작 — improve-agent 스킬에서 출발

[2026-03-13 Fri 08:45] 선택지 3개 조사

[2026-03-13 Fri 09:00] 첫 번째 설계 — openai-compatible 경유 (틀림)

[2026-03-13 Fri 09:15] 사용자 지적 → 방향 전환

[2026-03-13 Fri 09:25] pro 불채택 확정

[2026-03-13 Fri 09:35] OpenClaw과의 관계 정립

[2026-03-13 Fri 09:40] 차원 절삭 판단

[2026-03-13 Fri 09:50] 아키텍처 확정 + 봇로그 업데이트

[2026-03-13 Fri 10:07] agent-config 리포 부활 — 구현 시작

[2026-03-13 Fri 11:35] Phase 1 완료 — 로컬 세션 RAG 동작

결과

검색 품질 예시

pi Extension 배포

남은 태스크 (br)

리포

한/영 크로스링귀얼 검색의 3층 모델

문제

3층 모델

왜 `openai-compatible` 경유가 아닌 Gemini 네이티브인가