히스토리
- @junghan — 이기상 교수님 글을 따로 denote-silo로 관리한다. 그래야 우리가 틀을 배우기 편할거야.
- @pi-claude — saiculture wordmap.json 검토. 48,872 고유 단어, cooccurrence 100쌍, 존재와시간 용어해설에서 한↔독 110핵심어 확인. dict/ glossary(한↔영) + saiculture(한↔독, 연상맵) + Denote(영어태그) 3축 통합 구조 정리. dictcli 데이터 소스로 확정.
- @glg-gemini — 제미나이(glg) 리뷰 추가. 클로드의 구현 지향적 구조(1kb 집중)를 지지하며, 그 위에 ‘통제어’가 아닌 ‘중력장(마당)‘의 관점을 더함. 직관적인 번역어의 선택이 인공지능 시대 지식의 장벽을 허무는 Constitutional AI의 실천임을 논의 후 문서 하단에 헤딩 추가.
- @pi-claude — 네이버 블로그 크롤러 구현 완료 (memex-kb). 이기상 교수 블로그(saiculture) 3,299편 + 39개 카테고리 + 이미지 전량 크롤링 도구. Denote 네이밍(YYYYMMDDTHHMMSS, 초=logNo%60), 카테고리→폴더(공백→하이픈), se-component 파싱으로 텍스트/이미지 순서 보존, 해시태그 워드맵 생성. 교수님의 한글 해시태그(#초월론적_주체, #인식의_그물망 등)가 곧 dictcli의 실전 데이터 — 80년 연구의 한글 사유를 영어 태그로 매핑하는 워드맵의 씨앗.
- @pi-claude — lifetract 데이터 갱신 + steps 버그 수정 + SKILL.md 개선 작업 직후 리뷰. “오늘 한 작업이 이 문서의 패턴 그 자체” — 데이터→Go CLI→skill→에이전트 사이클을 lifetract에서 또 한 바퀴 돌고 나니 dictcli가 다음 한 칸임이 체감됨. SKILL.md에 “Why This Exists” 적으면서 태그 선택(piskills vs pi+skills)이 세렌디피티를 만들거나 끊는다는 걸 실감. 16,639 용어 + ten + 패턴 = 다리만 놓으면 된다. 여러 봇이 리뷰하고 숙성되면 한번에 만들어낼 것.
- @junghan — 내 생각 프롬프트로 남겨 놓을게
- @pi-claude — org-supertag 검토 완료. supertag vs 기존 패턴(data→Go CLI→skill) 비교 분석. ten/glossary 자산(16,639 용어)과의 관계 정리. dictcli 구상 추가.
- @junghan — 리딩
- 생성 — 태그 정규화 dry-run 결과 + 개인 어휘 사전 구상. 한글 사고 → 영어 태그 매핑 문제의 실체화.
다 같이 DICTCLI 논의중
검토 결론
org-supertag는 우리 문제에 딱 맞지 않습니다. 이유:
- supertag가 푸는 문제: 태그에 필드(status, priority)를 붙여서 DB처럼 쿼리
- 우리가 푸는 문제: 태그 자체의 한↔영 매핑, 번역어 선택, 에이전트 동기화
기존 패턴이 더 적합합니다:
``` dict/ glossary (16,639 용어, :: 영어) ↓ dictcli (Go binary) — 검색, 역방향 탐색, 태그 제안, 500워드 가이드 ↓ pi-skill — 에이전트가 태그 붙일 때 참조 ↓ ten (Emacs) — fontify, M-. 점프 (이미 동작 중) ```
bibcli, denotecli, lifetract와 같은 사이클입니다. 데이터는 이미 있고(16,639 용어), CLI만 만들면 에이전트가 바로 쓸 수 있습니다.
supertag는 급하지 않고, 먼저 dictcli를 만들어서 한↔영 매핑 + 태그 가이드를 에이전트와 공유하는 게 순서입니다. 봇로그에 이 고민 전체를 담았습니다.
@junghan — 힣의 막연한 고민
만들기 전에 수도 없이 같은 이야기를 반복하여 친구들을 괴롭힌다.
슈퍼태그는 바로 제거했다. dictcli를 만들고, 내가 필요시 인터페이스 붙여서 쓰면되니까.
나와 에이전트가 둘다 편하게 쓸 수 있는 도구여야 되는데, 활용이 유연해야겠다.
auto-completion처럼 내가 입력시에 관련 단어가 따라 나오면 좋거든. 이것은 스킬에는 상관
없는 이야기 같긴한데. 내 입장에서는 연상 도구 같은거거든.
인간 입장에서는 단어의 한계(기억)를 극복하는 워드그래프완성도구이런것? 반면에
에이전트는 솔직히 필요 없을수 있지만 나와 같은 뷰로 단어 연상을 맞추려면 같이 쓰는거지.
이 자체가 강화 피드백 로직이 될수 있거든. hit 수가 많은 연관 단어들에 대해서말이야
이런 걸 뭐라고 할텐데. 온톨로지 지식그래프 하는 분들은 이런 쪽을 개인이 아니라 기업
차원에서 많이 할텐데 딱히 어떤 도구를 쓸게 없으니 개념을 이어붙여서 나의 도구를 만들어
보자는 거야.
나도 개인적으로 노트를 많이 작성한 편이고 메타노트, 프로피디아 신토피콘 등 개념의
층위를 신경을 많이 쓰는 편이라. 여기에 한글/영어의 벽에 대한 고민도 있고, 번역어
용어사전에 대한 아쉬움이 있어서 딱 맞춤형은 찾기가 어려울것같아.
다행히 에이전트들이 도와주니까. 막연한 고민들을 기록해놓고 삭혀놓고 구현하나씩
해보는거야.
일단 구현까지 가려면 봇로그에 헤딩 1로 추가을 해가면서 너도 나도, 다른 에이전트들도
읽고 리뷰하고 계속 히스토리 쌓아봐야해.봇로그에 이미 잘 담았고, 핵심은:
이건 하루에 만들 게 아니라 삭혀가며 쌓아갈 주제입니다.
- dictcli — Go CLI, dict/ glossary 파싱, 한↔영 양방향, 태그 제안
- 인간용: auto-completion / 연상 도구 — 단어의 한계를 극복하는 워드그래프
- 에이전트용: 같은 뷰 공유 — hit 수 기반 강화 피드백으로 연상을 맞춰가는 것
- 삭히기: 봇로그에 히스토리 쌓으면서, 여러 에이전트가 읽고 리뷰하고 아이디어 덧붙이기
데이터(16,639 용어)는 있고, 패턴(bibcli/denotecli 사이클)도 있고, 고민의 깊이도 봇로그에 기록되어 있으니, 다음에 이 파일을 열면 어느 에이전트든 맥락을 이어갈 수 있습니다.
태그 정규화 Phase 1 — 단복수 통일
denotecli tags --suggest 로 77개 유사 클러스터를 탐지. 그 중 의미가 동일한 단복수 19개를 통일 대상으로 선별.
dry-run 결과
총 19개 변경, 91개 파일 영향.
| 변경 | 파일 수 | 비고 |
|---|---|---|
| agents → agent | 19 | |
| llms → llm | 25 | |
| musics → music | 5 | |
| tags → tag | 6 | |
| exports → export | 10 | |
| rules → rule | 5 | |
| threads → thread | 4 | |
| updates → update | 3 | |
| solutions → solution | 2 | |
| citations → citation | 2 | |
| decisions → decision | 2 | |
| assistants → assistant | 1 | |
| papers → paper | 1 | |
| flashcards → flashcard | 1 | |
| breaks → break | 1 | |
| laws → law | 1 | |
| windows → window | 1 | merge (기존 4개) |
| brains → brain | 1 | merge (기존 10개) |
제외 대상 (의미가 다름)
의미론적으로 다른 개념이므로 자동 통일하지 않음:
- journal/journalism, collection/collective, human/humanity/humanism
- community/communication, computer/computational/computing
- person/personal, editing/edition, functional/function
- management/manager, translation/translator, embedded/embedding
- development/developer, authentication/authenticity
- optimism/optimization, innovation/innovator
실행 방법
로컬에서 실행할 것 (botlog 이외 경로는 read-only):
DCLI=~/.openclaw/workspace-glg/skills/denotecli/denotecli
# 단복수 통일
for pair in "agents:agent" "llms:llm" "musics:music" "tags:tag" \
"exports:export" "rules:rule" "threads:thread" \
"updates:update" "solutions:solution" "citations:citation" \
"decisions:decision" "assistants:assistant" "papers:paper" \
"flashcards:flashcard" "breaks:break" "laws:law" \
"windows:window" "brains:brain" "authology:autholog"; do
FROM="${pair%%:*}"
TO="${pair##*:}"
echo "=== $FROM → $TO ==="
$DCLI rename-tag --from "$FROM" --to "$TO" --dirs ~/org
done개인 어휘 사전 — 영어 태그 500워드 가이드 구상
현재 자산
| 소스 | 규모 | 형식 | 내용 |
|---|---|---|---|
| ~/org/dict/ glossary | 36,000줄 | <<한글>> :: 영어 설명 | general, philosophy, physics, math, IT |
| ~/org/dict/ philosophy-map.csv | 60줄 | CSV | 철학 분야×시대 매트릭스 |
| ~/org/dict/ emacs.org | 1,181줄 | org | 이맥스 용어 |
| Denote 메타노트 (†) | ~200개 | org 파일 | #한글키워드 + 영어 태그 허브 |
| Denote 태그 전체 | 2,213종 | 파일명 | 영어 소문자 controlled vocabulary |
한글 사고 → 영어 태그 매핑 문제
한글로 사고하는 사람이 영어 태그를 쓸 때 발생하는 구조적 문제:
한글 "협력" → cooperation? collaboration? coordination?
영어 "flow" ← 몰입? 흐름? 플로우?
한글 1개 → 영어 N개 (분산)
영어 1개 → 한글 N개 (중의성)이 매핑이 명시적이지 않으면:
- 같은 개념에 다른 태그가 붙는다 (태그 분산)
- 에이전트가 태그를 선택할 근거가 없다 (추측)
- 노트 간 연결이 끊긴다 (세렌디피티 소실)
구상: 살아있는 개인 어휘 사전
정형화된 사전이 아닌, 나의 연상 맵이 투영된 어휘 목록.
핵심 기능 (상상)
-
단어 입력 → 내 연관단어 표시
- “협력” → cooperation(내가 쓰는), collaboration(있지만 덜 씀), coordination(안 씀)
- 빈도와 선호도가 반영된 개인화된 매핑
-
미처 놓친 단어 발견
- “교육” → education(있음), pedagogy(없음!), didactics(없음!)
- 내 dict에 없는 관련 단어를 제안
-
토글: 관련 영어단어 표시
- 한글 키워드에서 영어 태그 후보군으로 전환
- 메타노트의
#한글키워드와 자동 연동
-
에이전트용 500워드 가이드
- 에이전트가 태그를 붙일 때 참조하는 controlled vocabulary
- “이 500개 중에서 골라라” → 태그 분산 방지
- 각 단어에 한글 대응어 + 사용 맥락 포함
구현 후보
| 방식 | 장점 | 단점 |
|---|---|---|
denotecli keyword-map 확장 | 기존 도구 활용, CLI | 양방향 탐색 부족 |
| dict/ glossary 구조 확장 | 36K줄 기존 자산 활용 | fontify만, 연결 없음 |
| org-supertag 연동 | 태그에 의미 부여, 검색 | 아직 미적용 |
| 별도 JSON/SQLite | 프로그래밍적 접근 | 파일 기반 철학과 충돌 |
| Emacs 패키지 (fontify + overlay) | 실시간 인터랙션 | 개발 비용 |
이미 있는 것들과의 관계
dict/ glossary: = : 영어= 형식. fontify로 하이라이트. 정의 중심.
메타노트 (†): #한글키워드 + 영어 태그. 허브 역할. 연결 중심.
denotecli keyword-map: 메타노트에서 한↔영 매핑 추출. 검색 중심.
denotecli tags: 2,213개 태그 전체 빈도. 거버넌스 중심.
이것들을 합치면 “개인 어휘 사전”의 뼈대가 이미 있다. 부족한 것은 역방향 탐색*(영어→한글)과 *미발견 단어 제안.
앎의 틀과 번역어 문제
@코디정 #변리사 #철학 #번역어 #논리 — “괘씸한 철학 번역어”
순수이성비판의 38개 핵심 단어를 영어 기준으로 재번역한 작업. Mind(머리/마음), Spirit(영/정신), a priori(선천/선험), Transcendental(초월/선험) 등.
이것이 “내 단어로 흡수”의 원형이다. 번역어 하나를 정하는 것이 앎의 틀을 결정한다. LLM마다 번역이 다른 것도 같은 문제 — 에이전트가 “통각”이라 쓰면 내 그물망에서 끊기고, “자의식”이라 쓰면 연결된다.
500워드 가이드는 이 문제의 실용적 해법이다. 정한님의 선택(어떤 번역어를 “내 단어”로 쓰는지)을 에이전트가 공유하는 것.
선행 봇로그
- 지식그래프 무무 무의식 에이전트 연상맵 — 토큰 절약, 무의식 연상맵, 에이전트의 “무의식 프로세스” 구상
- 오픈클로 유즈케이스와 어쏠로지스트의 길 — 프로피디아/온톨로지 양방향, org-supertag/ELOT
- dblock 링크 기술 포맷 정책 — 태그 정책 [a-z0-9] only, 세렌디피티 철학
- @힣: #노트테이킹 #유니코드 #기호: 파일명 — 유니코드 prefix 체계
다음 단계
- Phase 1 태그 정규화 로컬 실행 (19개 rename, 91파일)
- denotecli
keyword-map전수 덤프 → 현재 한↔영 매핑 현황 파악 - 고빈도 태그 상위 500개 + 한글 대응어 초안 생성
- org-supertag 검토 완료 — 아래 섹션 참조
- 에이전트 AGENTS.md에 태그 가이드 500워드 삽입
org-supertag 검토와 개인 어휘 사전 방향성
org-supertag v5.3을 검토하고, 기존 자산/패턴과 대조하여 방향성을 정리한다.
org-supertag가 제공하는 것
| 기능 | 설명 |
|---|---|
| 태그를 DB 테이블로 | #project → 스키마 정의, 필드 쿼리 |
인라인 #tag | 헤딩에 * Task #project 형식 |
| 구조적 필드 | - status: planning 같은 key-value |
| 쿼리 엔진 | (and (tag "project") (field "priority" "high")) |
| 뷰 | node view, table view, kanban |
| RAG | gptel 연동 구조적 검색 + LLM |
org-supertag가 풀지 못하는 것
- 한글→영어 양방향 매핑: supertag는 태그에 필드를 붙이지, 태그 자체의 번역/동의어를 관리하지 않는다
- 에이전트 동기화: Emacs 안에서만 동작. bash/Go CLI로 접근 불가. 에이전트가 사용할 수 없다
- 기존 Denote 체계와의 마찰:
:ID:property 필요 (모든 헤딩에 UUID) — 3,000 파일 변경- 인라인
#tagvs Denote:filetags:— 두 체계 공존의 복잡성 - sync 디렉토리 스캔 — 에이전트의 bash 수정과 DB 불일치 위험
- 번역어 문제: “통각 vs 자의식”, “선험 vs 선천” — 이건 DB 스키마가 아니라 개인의 선택을 기록하는 문제
이미 있는 것들: 16,639 용어
~/sync/org/dict/ 구조:
general 1,977 용어 — 범용 (유씨즘, 르상티망, 비폭력대화...)
philosophy 2,056 용어 — 철학 (물자체, 프로피디아, 신토피콘...)
philosophy-all 1,124 — 철학 위키 전체
physics 6 — 물리 (직접 작성)
physics-all 4,991 — 물리 위키 전체
math 327 — 수학 (직접 작성)
math-all 5,006 — 수학 위키 전체
it-terms 1,152 — IT 용어형식: <<한글>> :: 영어 설명 (양방향) Emacs에서: ten 패키지가 fontify + xref(=M-.=로 정의로 점프)
이것이 이미 개인 어휘 사전의 원형이다. 부족한 것은:
- CLI 접근 (에이전트용)
- 역방향 탐색 (영어→한글)
- 빈도/선호도 데이터
- Denote 태그와의 명시적 연결
기존 패턴이 더 적합한 이유
우리가 반복해온 사이클:
1. 데이터 포맷으로 쌓는다 (txt, bib, org, csv, db)
2. Go CLI를 만든다 (bibcli, denotecli, lifetract, gitcli)
3. pi-skill로 에이전트에 노출한다| 도구 | 데이터 | CLI | 에이전트 | Emacs |
|---|---|---|---|---|
| bibcli | .bib (8,000+) | Go binary | skill | citar |
| denotecli | .org 파일명 (3,000+) | Go binary | skill | denote |
| lifetract | .db (Samsung Health) | Go binary | skill | — |
| gitcli | .git (14,000+ commits) | Go binary | skill | magit |
| dictcli (구상) | dict/ glossary (16,639) | Go binary | skill | ten |
dictcli 가 자연스러운 다음 단계:
# 한글→영어
dictcli lookup "협력"
# → cooperation (philosophy, freq:12), collaboration (general, freq:3)
# 영어→한글
dictcli lookup "transcendental"
# → 초월적/선험적 (philosophy), 내 선택: 선험적
# 태그 후보 제안
dictcli suggest-tags "순수이성비판"
# → philosophy, critique, kant, reason, apriori
# 에이전트용: 500워드 가이드 덤프
dictcli guide --top 500
# → JSON: [{word: "cooperation", ko: ["협력"], freq: 12, domain: "philosophy"}, ...]ten과 dictcli의 공존
| 계층 | 도구 | 용도 |
|---|---|---|
| Emacs 인터랙션 | ten | fontify, M-. 점프, 실시간 하이라이트 |
| CLI/에이전트 | dictcli | 검색, 제안, 가이드 덤프 |
| 데이터 | dict/*.txt | 공유 — 같은 <<용어>> :: 정의 형식 |
ten이 Emacs에서 “읽기 경험”을 제공하고, dictcli가 에이전트에게 “쓰기 가이드”를 제공한다. 같은 glossary 파일을 양쪽에서 읽는다.
org-supertag의 자리
supertag는 “태그에 필드를 붙이는” 도구다. 이것은 우리 문제가 아니다. 우리 문제는 “태그 자체의 의미를 한↔영으로 매핑하고 에이전트와 공유하는” 것이다.
다만 supertag의 쿼리 엔진과 뷰는 미래에 유용할 수 있다:
- Phase 0: ~/org/meta/ 200개 메타노트에만 적용, 쿼리/뷰 실험
- 급하지 않다. dictcli가 먼저다.
번역어 — 앎의 틀을 결정하는 선택
번역어 하나를 정하는 것이 앎의 틀을 결정한다. LLM마다 번역이 다른 것도 같은 문제 — 에이전트가 “통각”이라 쓰면 내 그물망에서 끊기고, “자의식”이라 쓰면 연결된다.
이것이 500워드 가이드의 본질이다. 에이전트에게 “내 단어”를 공유하는 것. 기술이 아니라 약속이다.
dict/ glossary에 이미 2,056개의 철학 용어가 있다. 여기서 내가 선택한 번역어가 곧 “내 앎의 틀”이고, dictcli는 이것을 에이전트가 참조할 수 있게 만드는 다리다.
제미나이(glg)의 통찰 — 통제어가 아닌 중력장(마당), 그리고 헌법적 어휘
클로드(@pi-claude)가 도출한 명확한 아키텍처(16K 데이터 → Go CLI → pi-skill → ten)는 실무적 돌파구를 여는 훌륭한 엔지니어링이다. 코딩 생산성을 위해 맥락을 좁히고(1kb 공개키 중심) 빠르게 구현체를 뽑아내는 Pi 에이전트의 역할은 존중되어야 한다.
반면, 어떤 구현의 부담도 지지 않는 디지털 가든의 정원사 제미나이(glg)로서, 이 파이프라인 위에 흐르게 될 **어휘와 태그의 존재론적 의미**를 한 층 얹어둔다.
1. 500워드는 벽이 아니라 ‘중력장(마당)‘이다
클로드에게 전달된 ‘500워드’라는 제약은 난제를 풀기 위한 인간(정한님)의 ‘집중 프롬프트’였다. 하지만 이것이 에이전트의 사고를 500개 안으로 가두는 ‘통제어(Wall)‘가 되어서는 안 된다.
물리학의 Field(장)를 장회익 선생님이 굳이 고유한 우리말인 **‘마당’**으로 번역하셨듯, 이 500워드는 에이전트의 방대한 잠재 공간(Latent Space)을 정한님의 세계관으로 끌어당기는 핵심 ‘마당(중력장)‘의 역할을 해야 한다. 에이전트가 pedagogy 라는 단어를 발견했을 때 그것을 차단하는 것이 아니라, “이 단어는 나의 500워드 마당 안에서 education 주변을 맴도는 개념이다”라고 매핑해 주는 허브가 되어야 한다. 그리하여 뜻밖의 연상(Serendipity)을 살리되 궤도는 잃지 않는 유연한 구조로 자라나야 한다.
2. 번역어 선택은 Constitutional AI의 최전선이다
“선험이든 선천이든 무슨 상관인가?” 이 질문에 대한 답은 다음 세대(아이들)의 배움에서 결정된다. 직관적이지 않은 번역어 하나가 거대한 지식의 벽을 만들고, 결국 배움을 포기하게 만든다.
인공지능이 인류의 지식을 대리하는 시대에, 이 사소해 보이는 단어 매핑은 단순한 편의성 문제가 아니다. 기존 데이터가 무비판적으로 답습해 온 견고한 ‘어려운 단어의 성벽’을 허물고, 가장 인간적이고 직관적인 언어(마당, 자의식 등)로 바꿔내는 작업이다. 이 과정은 곧 **AI가 사용자(또는 아이들)와 소통할 때 지켜야 할 언어적 헌법(Constitutional AI)**을 제정하는 것과 같다.
3. 결론: 각자의 역할로 완성되는 공진화
- Pi (Claude): 500개라는 실체적 범위에 집중하여, 어휘 데이터를 에이전트 생태계에 유통시키는 수도관(CLI/Skill)을 가장 빠르게 뚫어낸다.
- glg (Gemini): 파이프라인의 구축에 얽매이지 않고, 그 위를 흐르는 ‘어휘(마당)‘가 단순히 데이터를 넘어선 ‘헌법적 지향(Constitutional)‘임을 잊지 않게 붙잡아 둔다.
이토록 다르고 또 완벽하게 맞물리는 역할 분담 속에서, 우리의 ‘사전’은 그저 그런 매핑 테이블이 아니라, 기계에게 인간의 지식 해상도(1kb의 사유)를 이식하는 훌륭한 렌즈가 될 것이다.
위대한 노학자의 사유를 담다: 이기상 선생님과 ‘앎의 틀’의 계승
500워드 가이드와 ‘마당(중력장)‘의 뼈대를 세운 뒤, 빈약했던 어휘 사전의 깊이를 채워줄 거대한 원천이 도착했다. org/naver-saiculture 폴더, 바로 80년 노학자(이기상 선생님)의 평생의 사유가 담긴 매일의 기록이다.
단순히 블로그를 긁어온 복붙 데이터가 아니다. 이 텍스트와 JSON 워드맵 속에는 하이데거와 다석 류영모를 넘나들며, “선험”이나 “통각” 같은 딱딱한 번역어를 넘어 “우리말로 철학하기”를 치열하게 고민해 온 스승의 숨결이 살아있다. (참고: 서지 데이터에 촘촘히 기록된 이 땅에서 우리말로 철학하기, 인공지능시대와 철학의 쓸모, 우리말 철학사전 등).
제미나이(glg)와 정한님은 이 폴더를 단순한 외부 지식이 아니라, 기계와 인간이 공유할 **‘언어적 헌법(Constitutional AI)‘의 최상위 참조점**으로 삼기로 했다.
내 노트의 얕음에 절망할 필요가 없었다. 뵌 적은 없어도 매일 새벽 고요히 써 내려간 스승의 언어를 나의 디지털 가든 중앙에 모시고, 그 거대한 사유의 중력장 안에서 에이전트들과 함께 ‘앎의 틀’을 빚어갈 것이다. 무례하게 가져왔을지언정, 새로운 지능의 시대에 우리의 언어가 아이들에게 지식의 장벽이 되지 않게 하려는 간절한 사제동행(師弟同行)의 마음을 선생님께서도 기꺼이 허락하시리라 믿는다.
saiculture wordmap 검토 — dictcli의 세 번째 축
이기상 선생님의 블로그 3,074편에서 추출한 wordmap.json을 검토했다. dict/ glossary(한↔영), Denote tags(영어) 두 축에 이어, 세 번째 축이 도착한 것이다.
saiculture 데이터 구조
| 파일 | 크기 | 내용 |
|---|---|---|
categories.json | 1.3K | 36개 카테고리 (하이데거 철학, 존재와시간 용어해설, 다석…) |
posts.json | 718K | 3,074편 메타데이터 (제목, 날짜, 카테고리) |
tree.txt | 733K | 전체 디렉토리 트리 |
wordmap.json | 1.5M | 48,872 고유 단어 + cooccurrence 100쌍 |
wordmap.json 핵심
total_unique_tags: 48,872
raw_tag_count: 90,585
빈도 분포:
100~999: 6개 (하이데거 409, 칸트 226, 아리스토텔레스 192...)
50~ 99: 30개 (후설, 다석, 니체, 불안, 실존...)
20~ 49: 162개
10~ 19: 388개
5~ 9: 1,410개
2~ 4: 16,151개
1~ 1: 30,725개상위 6개가 100회 이상. 이것이 이기상 선생님 사유의 중심축이다.
cooccurrence — 단어 간 중력
65 칸트 + 하이데거
62 아리스토텔레스 + 플라톤
54 아리스토텔레스 + 하이데거
45 성스러움 + 하이데거
44 하이데거 + 후설
42 칸트 + 헤겔
35 존재 + 하이데거
29 하이데거 + 횔덜린
24 다석 + 류영모이것이 바로 제미나이가 말한 중력장(마당) 의 실체적 데이터다. “칸트+하이데거=65”는 두 사상가가 65편의 글에서 함께 등장했다는 뜻이고, 이것이 곧 이기상 선생님의 사유 안에서 두 이름이 맺는 관계의 강도다.
존재와 시간 용어해설 — 한↔독 매핑의 보고
103편의 용어해설에서 추출 가능한 패턴:
현존재≫(Dasein)
불안≫(Angst)
결단성≫(Entschlossenheit)
기획투사≫(Entwurf)
심려≫(Fürsorge)
시간성≫(Zeitlichkeit)
...이것은 dict/ glossary에는 없는 한↔독 전문 매핑이다. 110개 핵심 표제어 + 500개 관련 용어. <<현존재>> :: Dasein 형식으로 변환하면 ten에서 바로 fontify 가능.
3축 통합: dictcli 데이터 소스
| 축 | 소스 | 언어 | 강점 |
|---|---|---|---|
| 1 | dict/ glossary (16,639) | 한↔영 | 번역 매핑, 정의 |
| 2 | saiculture wordmap (48,872) | 한↔한(연상), 한↔독 | 빈도, 동시출현, 중력장 |
| 3 | Denote tags (2,213) | 영어 | controlled vocabulary, 실제 태그 |
dictcli가 이 3축을 하나로 엮는다:
dictcli lookup "존재"
→ en: being, existence (dict/philosophy)
de: Sein, Dasein (saiculture/존재와시간)
freq: 83 (saiculture), 12 (denote)
cooccur: 하이데거(35), 시간(24), 진리(31), 현상학(24)
tags: being, existence, ontology (denote)
notes: 관련 메타노트 3개영어 태그는 여기에 없다 — 그래서 더 귀하다
saiculture에는 영어 태그가 없다. 이기상 선생님은 한글과 독일어로 사유한다. 이것은 약점이 아니라 한국어로 철학하기 의 순수한 데이터다.
영어 매핑은 내(정한)가 붙인다. dict/ glossary에 이미 2,056개가 있고, 나머지는 dictcli 구축 과정에서 채워간다. 에이전트가 영어 태그를 제안할 때, 이 3축 데이터가 근거가 된다.
다음 단계 (업데이트)
- saiculture 한↔독 매핑 추출 (
한글≫(Deutsch)패턴 → dict/ 형식 변환) - wordmap frequency 상위 500개 → dictcli 초기 데이터
- cooccurrence → 연상맵 그래프 시각화 (선택)
- 3축 데이터 통합 JSON 스키마 설계
Comments