({EmacsConf and hangouts} 2022) "EmacsConf 2022: GRAIL—A Generalized Representation and Aggregation of Information Layers" 2022 EmacsConf and Emacs hangouts - EmacsConf 2022
인간의 뇌는 다양한 신호를 받아 이를 동화(필터링, 접합, 수정 등)하여 구문 구조와 그 의미 해석을 구축합니다. 이는 인간의 의사소통을 가능하게 하는 복잡한 과정입니다. 인공 지능(AI) 분야는 기호를 생성하고 이러한 신호에서 의미를 도출하는 방법을 연구하고 인간과 컴퓨터의 효과적인 상호 작용을 가능하게 하는 예측 모델을 구축하는 데 전념하고 있습니다.
이 강연에서는 신호의 범위를 언어 텍스트와 음성으로 제한하겠습니다. 자연어 처리(NLP)라고도 하는 컴퓨터 언어학(CL)은 이를 해석하는 AI의 하위 영역입니다. 여기에는 이러한 신호에서 복잡한 언어 구조를 모델링하고 예측하는 작업이 포함됩니다. 이러한 모델은 대량의 raw (naturally occurring) data and a varying amount of (manually) enriched data, commonly known as 주석에 크게 의존하는 경향이 있습니다. 모델은 주석의 품질만큼만 우수합니다. 언어 현상의 복잡하고 다양한 특성으로 인해 분할 및 정복 접근 방식이 일반적입니다. 장점은 하나 또는 소수의 관련 언어 현상에 집중할 수 있다는 점입니다. 단점은 언어가 문맥에 민감하고 시간이 지남에 따라 진화하기 때문에 이러한 현상의 세계가 계속 확장된다는 것입니다. 예를 들어, 문맥에 따라 bank ''can refer to a financial institution, or the rising ground surrounding a lake, or something else. The verb google''이라는 단어는 회사가 탄생하기 전에는 존재하지 않았습니다.
데이터에 수동으로 주석을 다는 작업은 매우 까다롭고 노동 집약적인 작업일 수 있습니다. 이 때문에 최근까지 다중 양식의 발전은 사일로에서 이루어졌습니다. 최근 컴퓨터 하드웨어와 머신러닝 알고리즘의 발전으로 멀티모달 데이터를 해석할 수 있는 길이 열렸습니다. 그러나 서로 연관되어 있지만 서로 다른 예측을 통합해야 한다는 점은 큰 도전 과제입니다.
이 강연에서 다루고자 하는 두 가지 질문은 다음과 같습니다:
임의의 수준의 언어 정보를 포괄하는 데이터와 주석의 통합된 표현을 어떻게 만들 수 있을까요? 그리고,
이 과정에서 Emacs는 어떤 역할을 할 수 있을까요?
Emacs는 프로그래밍 언어에서 볼 수 있는 재귀적 임베디드 구조를 편집하고 조작할 수 있는 풍부한 환경을 제공합니다. 그러나 텍스트 보기는 단어로 나뉜 문자열, 마침표로 끝나는 문자열, 구분 기호로 식별되는 문자열 등 다소 선형적인 형태입니다. 텍스트의 임베디드 또는 재귀 구조를 가정하지 않습니다. 그러나 자연어를 해석하는 과정에는 이러한 구조에 대한 작업이 포함됩니다. 텍스트에서 파생된 풍부한 구조를 조작하기 위해 Emacs를 조정할 수 있다면 어떨까요? 결정론적으로 구문 분석하고 해석하도록 설계된 프로그래밍 언어와 달리 자연어 문장의 해석은 모호성, 불일치, 불완전성 등과 같은 현상을 자주 처리해야 하며 상당히 복잡해질 수 있습니다.
저희는 이러한 풍부한 구조를 체계적으로 표현하고 집계할 수 있도록 Emacs의 기능을 활용하는 아키텍처(GRAIL)를 제시합니다. 우리의 접근 방식은 Emacs에 종속되지 않고 솔루션 프로토타입을 만들고 평가하기 위해 내장된 많은 기능을 사용합니다.
Related-Notes
References
{EmacsConf, and Emacs hangouts}, eds. 2022. EmacsConf 2022: GRAIL–-A Generalized Representation and Aggregation of Information Layers. Directed by {EmacsConf and Emacs hangouts}. https://www.youtube.com/watch?v=q2b3mSOUZcY.