관련메타
- 태그에 걸린 노트들이 메타다. 백링크 확인.
히스토리
- 제안서 작성을 고민하는 H씨에게 힣의 memex-kb를 소개하다. 현재 어쏠리즘 내보내기에 애용
- LLM 생성
관련노트
memex-kb: Legacy 문서 RAG 파이프라인 입구
AI 작성
프로젝트 목표
“당신의 지식을 당신의 방식으로”
Denote 기반 범용 지식베이스 변환 시스템. Legacy 문서 (Google Docs, Dooray, Confluence…)를 RAG-ready 형태로 변환.
핵심 통찰
문제 인식
기술 스택은 이미 검증됨:
- n8n: 40+ 노드 워크플로우
- Supabase pgvector: 2,945개 Org 파일 임베딩 완료
- Ollama: multilingual-e5-large (GPU 클러스터)
그런데 Legacy 문서를 어떻게 RAG-ready로 변환하는가?
→ 변환 도구는 많지만, 일관성 없는 파일명/분류/메타데이터
→ 임베딩해도 품질이 낮음해결책
“단순 변환 도구가 아니라, RAG 파이프라인의 입구”
- Denote 파일명 규칙: `timestamp—한글-제목__태그들.md` (파싱 가능, 의미 명확)
- 규칙 기반 자동 분류: YAML 설정 (LLM 비용 0원, 재현 가능)
- Git 버전 관리: 모든 변환 과정 추적
- Backend 중립: Adapter 패턴 (도구 바뀌어도 데이터 유지)
- 임베딩 파이프라인 통합 (v2.0 로드맵)
아키텍처
[Backend Sources]
├── Google Docs (✅ 구현, Pandoc 기반, 95% 정확도)
├── Dooray Wiki (🔧 개발 중)
└── Confluence (📋 계획 중)
↓
[Backend Adapter]
↓
[Markdown Conversion]
↓
[공통 파이프라인]
├── DenoteNamer (파일명 생성)
├── Categorizer (자동 분류)
└── Tag Extractor (태그 추출)
↓
[Local Git Repository]
├── docs/
│ ├── architecture/
│ ├── development/
│ ├── operations/
│ └── _uncategorized/
↓
[v2.0 RAG Pipeline] ← 로드맵
├── Vector Embedding (Ollama)
├── Supabase pgvector
└── n8n RAG Orchestration
↓
[AI Second Brain]기술 스택
- Conversion: Pandoc (Google Docs → Markdown)
- Naming: Denote convention
- Classification: YAML 규칙 (키워드 + 패턴 매칭)
- Version Control: Git
- Security: Secretlint
- Future (v2.0): Ollama + Supabase pgvector + n8n
문서 타임라인 (6개 docs/)
-
20251015T180500—memex-kb-rag-통합-전략
- RAG 통합 전략 및 아키텍처
-
20251015T182000—embedding-config-경험-통합-가이드
- Embedding 경험 통합
-
20251015T184500—chonkie-적용-가능성-분석
- Chonkie chunking 라이브러리 평가
-
20251015T201500—emacs-community-rag-wisdom
- Emacs 커뮤니티 RAG 지혜
-
20251016T140000—구조화-데이터-임베딩-가치-벤치마크
- 구조화 데이터 임베딩 벤치마크
로드맵
v1.0 (✅ 완료)
- Google Docs Adapter (Pandoc, 95% 정확도)
- Denote 파일명 생성
- 규칙 기반 자동 분류 (LLM 비용 0원)
- Git 버전 관리
v1.1 (🔧 개발 중)
- Dooray Wiki/Drive Adapter
- Adapter 패턴 리팩토링
- CLI 개선
v2.0 (RAG Pipeline Integration)
Legacy → Denote → RAG-ready 변환 시스템
- Denote Markdown → Vector Embedding (Ollama)
- Supabase pgvector 통합 (2,945개 파일 검증)
- n8n RAG Workflow (Hybrid Search: 키워드 + 벡터 + 그래프)
철학적 기반
“The memex is a device in which an individual stores all his books, records, and communications…” — Vannevar Bush, “As We May Think” (1945)
Memex-KB는 Vannevar Bush의 Memex 개념을 현대적으로 구현.
메타정보
포트폴리오 가치:
- 실무 문제 해결: Legacy 문서의 체계적 마이그레이션
- 독창적 접근: Denote + 계층적 지식 구조 + RAG
- 검증된 통합: 2,945개 파일 임베딩 경험 활용
- Backend 중립: Adapter 패턴으로 확장성
버전: 1.1.0 (개발 중) 작성자: Jung Han (junghan0611)