히스토리
- 정리
- 올드노트 섞여 있음 비공개 -> 정리 필요
관련메타
BIBLIOGRAPHY
DONE nlp nltk python
nlp 는 다 파이썬 뿐이다. 근데 툴도 많다. 뭐가 뭣인가? 라는 고민을 하기 쉽다. 온갖 책 이야기들이 많기 때문이다.
핵심은 소규모와 대규모의 차이다. 간단하게 로컬 툴을 만들 것이라면 nltk 를 사용하면 된다. 아니 그 유사한 구성을 하면 된다. 머신 러닝으로 갈 필요가 없다.
키워드
- #한글: #한국어 #형태소분석 #구문분석 - 키위 (2023-11-09)
- #린터: Vale 발레 안되는 이유 - 형태소분석 (2023-11-08)
- @라이언미첼 파이썬 웹 크롤러 (2025-02-15)
- #모음 #도서 #강의: 자연어처리 임베딩 (2024-06-20)
DONE Text Corpus
url:: https://en.wikipedia.org/wiki/Text_corpus
In linguistics and natural language processing, a corpus (pl.: corpora) or text corpus is a dataset, consisting of natively digital and older, digitalized, language resources, either annotated or unannotated.
Annotated, they have been used in corpus linguistics for statistical hypothesis testing, checking occurrences or validating linguistic rules within a specific language territory. In search technology, a corpus is the collection of documents which is being searched.
언어학 및 자연어 처리에서 말뭉치(원문: 코퍼스) 또는 텍스트 말뭉치는 주석이 있거나 주석이 없는, 기본적으로 디지털화된 오래된 언어 자원으로 구성된 데이터 집합입니다. 주석이 있는 말뭉치는 코퍼스 언어학에서 통계적 가설 테스트, 특정 언어 영역 내에서 발생 빈도 확인 또는 언어 규칙 검증에 사용되었습니다. 검색 기술에서 코퍼스는 검색 중인 문서의 집합을 의미합니다