관련메타

  • 태그에 걸린 노트들이 메타다. 백링크 확인.

히스토리

  • [2026-01-28 Wed 22:57] 제안서 작성을 고민하는 H씨에게 힣의 memex-kb를 소개하다. 현재 어쏠리즘 내보내기에 애용
  • [2025-10-30 Thu 01:11] LLM 생성

관련노트

memex-kb: Legacy 문서 RAG 파이프라인 입구

[2025-10-30 Thu 01:11] AI 작성

프로젝트 목표

“당신의 지식을 당신의 방식으로”

Denote 기반 범용 지식베이스 변환 시스템. Legacy 문서 (Google Docs, Dooray, Confluence…)를 RAG-ready 형태로 변환.

핵심 통찰

문제 인식

기술 스택은 이미 검증됨:
- n8n: 40+ 노드 워크플로우
- Supabase pgvector: 2,945개 Org 파일 임베딩 완료
- Ollama: multilingual-e5-large (GPU 클러스터)
 
그런데 Legacy 문서를 어떻게 RAG-ready로 변환하는가?
 
→ 변환 도구는 많지만, 일관성 없는 파일명/분류/메타데이터
→ 임베딩해도 품질이 낮음

해결책

“단순 변환 도구가 아니라, RAG 파이프라인의 입구”

  1. Denote 파일명 규칙: `timestamp—한글-제목__태그들.md` (파싱 가능, 의미 명확)
  2. 규칙 기반 자동 분류: YAML 설정 (LLM 비용 0원, 재현 가능)
  3. Git 버전 관리: 모든 변환 과정 추적
  4. Backend 중립: Adapter 패턴 (도구 바뀌어도 데이터 유지)
  5. 임베딩 파이프라인 통합 (v2.0 로드맵)

아키텍처

[Backend Sources]
    ├── Google Docs    (✅ 구현, Pandoc 기반, 95% 정확도)
    ├── Dooray Wiki    (🔧 개발 중)
    └── Confluence     (📋 계획 중)

[Backend Adapter]

[Markdown Conversion]

[공통 파이프라인]
    ├── DenoteNamer      (파일명 생성)
    ├── Categorizer      (자동 분류)
    └── Tag Extractor    (태그 추출)

[Local Git Repository]
    ├── docs/
    │   ├── architecture/
    │   ├── development/
    │   ├── operations/
    │   └── _uncategorized/

[v2.0 RAG Pipeline] ← 로드맵
    ├── Vector Embedding (Ollama)
    ├── Supabase pgvector
    └── n8n RAG Orchestration

[AI Second Brain]

기술 스택

  • Conversion: Pandoc (Google Docs → Markdown)
  • Naming: Denote convention
  • Classification: YAML 규칙 (키워드 + 패턴 매칭)
  • Version Control: Git
  • Security: Secretlint
  • Future (v2.0): Ollama + Supabase pgvector + n8n

문서 타임라인 (6개 docs/)

  1. 20251015T150842—dooray-api-기술-조사

  2. 20251015T180500—memex-kb-rag-통합-전략

    • RAG 통합 전략 및 아키텍처
  3. 20251015T182000—embedding-config-경험-통합-가이드

    • Embedding 경험 통합
  4. 20251015T184500—chonkie-적용-가능성-분석

    • Chonkie chunking 라이브러리 평가
  5. 20251015T201500—emacs-community-rag-wisdom

    • Emacs 커뮤니티 RAG 지혜
  6. 20251016T140000—구조화-데이터-임베딩-가치-벤치마크

    • 구조화 데이터 임베딩 벤치마크

로드맵

v1.0 (✅ 완료)

  • Google Docs Adapter (Pandoc, 95% 정확도)
  • Denote 파일명 생성
  • 규칙 기반 자동 분류 (LLM 비용 0원)
  • Git 버전 관리

v1.1 (🔧 개발 중)

  • Dooray Wiki/Drive Adapter
  • Adapter 패턴 리팩토링
  • CLI 개선

v2.0 (RAG Pipeline Integration)

Legacy → Denote → RAG-ready 변환 시스템

  • Denote Markdown → Vector Embedding (Ollama)
  • Supabase pgvector 통합 (2,945개 파일 검증)
  • n8n RAG Workflow (Hybrid Search: 키워드 + 벡터 + 그래프)

철학적 기반

“The memex is a device in which an individual stores all his books, records, and communications…” — Vannevar Bush, “As We May Think” (1945)

Memex-KB는 Vannevar Bush의 Memex 개념을 현대적으로 구현.

메타정보

포트폴리오 가치:

  • 실무 문제 해결: Legacy 문서의 체계적 마이그레이션
  • 독창적 접근: Denote + 계층적 지식 구조 + RAG
  • 검증된 통합: 2,945개 파일 임베딩 경험 활용
  • Backend 중립: Adapter 패턴으로 확장성

버전: 1.1.0 (개발 중) 작성자: Jung Han (junghan0611)