BIBLIOGRAPHY
“대형 언어 모델 Large Language Model.” 2024. In 위키백과, 우리 모두의 백과사전. https://ko.wikipedia.org/w/index.php?title=%EB%8C%80%ED%98%95_%EC%96%B8%EC%96%B4_%EB%AA%A8%EB%8D%B8&oldid=37982508.
“어떤 언어 모델이 좋을까 - 언어 모델의 간략한 역사.” 2021. 나의 큰 O는 log x야. June 22, 2021. https://bab2min.tistory.com/666.
History
- 메타 만들어
Related-Notes
키워드 llms
- @오카노하라다이스케 생성형 인공지능 구조 이해 수학 언어 모델 (2024-06-01)
- @마크왓슨 #개인지식관리 #시맨틱웹 #인공지능 프로그래밍 구루 (2024-06-23)
- @니콜라스칼리니(NicholasCarlini) 앤트로픽 인공지능 구루 (2024-09-18)
- @조이홍(joyHong) #지식그래프 #추론 #온톨로지 (2024-10-04)
- @시몬윌리슨 @SimonWillison - Datasette (2025-03-27)
- @defrecord 클로저 하이랭 조직모드 이맥스 LLM (2025-03-27)
- @JayAlammar @MaartenGrootendorst 직접 해보는 #대형언어모델 - Hands-on LLMs (2025-03-27)
- @데니스로스먼 RAG 생성형 AI - 라마인덱스 검색 딥레이크 파인콘 파이프라인 @류광 (2025-03-27)
- @제이슨월시 Jason Walsh 이맥스 조직모드 클로저 하이랭 인공지능 구루 (2025-03-30)
- @나다아민 NadaAmin 메타프로그래밍 인공지능 프로그래밍언어 (2025-03-31)
- ¤OpenRouter (오픈라우터) 통합 LLM 인터페이스 (2025-04-11)
- @ahyatt AndrewHyatt ekg llm calc 이맥스 지식그래프 구루 (2025-04-15)
- @JustineTenney @jart 오픈소스 활동가 해커 구루 #월가를점거하라 (2025-05-29)
- @안드레이카파시 @유레카랩 @AndrejKarpathy #인공지능 #딥러닝 #에듀테크 (2025-06-19)
- ©Mistral ¤코드스트럴 ¤Codestral (2025-06-24)
- @폴이우수틴 LLM 엔지니어링 RAG 파인튜닝 LLMOps (2025-06-29)
- ©Ollama ¤ollama ¤localai #로컬LLM #실행도구 (2025-07-01)
- @크리스토퍼브루소 @매슈사프 LLM 인 프로덕션 - 제품화 전략 언어학 @류광 (2025-07-13)
- #가격 #비교: LLM API 서비스 - 모델 통합 라우터 (2025-03-21)
- @힣: AI 모델 선택과 도구 - API 게이트웨이 인터페이스 (2025-03-24)
- #네트워크: 10GbE 100GbE #이더넷 #인피니밴드 - 클러스터 리눅스 (2025-07-02)
- ¤GPUStack AI 클러스터 GPU 관리자 오픈소스 (2025-07-03)
- #AI클러스터 기본 모델 검증 GPUStack (2025-07-11)
- 인공지능 파라미터 모델 크기 2B, 7B, 70B - 뇌의 시냅스 (2025-07-11)
- 업스테이지 모델 분석 - 한국어 최적화 (2025-07-11)
2021 “어떤 언어 모델이 좋을까 - 언어 모델의 간략한 역사”
(“어떤 언어 모델이 좋을까 - 언어 모델의 간략한 역사” 2021)
언어 모델(Language Model)은 특정 문장(=단어의 나열)이 등장할 확률을 계산해주는 모델입니다. 문장에 대해 확률을 계산할 수 있다는 건, 단어(혹은 문장)를 적절하게 선택하거나 생성해야하는 경우 여러 후보 중에서 더 적절한(확률이 높은) 후보를 선택하는 데에 쓰일 수 있다는 뜻이지요. 이 때문에 기계번역, 음성 인식, 철자 교정, OCR 등 언어와 관련된 여러 과제에서 널리 쓰이고 있습니다(이에 대해서는 예전에 몇몇 포스팅에서 간략하게 다룬 적이 있습니다). 게다가 최근 GPT-3와 같은 강력한 언어 모델이 등장하면서 언어모델이 위와 같이 비교적 단순한 과제뿐만 아니라 대화나 긴 글을 통채로 생성하거나, 주어진 예문이나 설명을 바탕으로 새로운 문제를 해결하는 것까지도 가능하다는 것이 밝혀져서..
- N-Gram
- RNN 계열 모델
- GPT 1,2,3
- Kneser-ney
대형 언어 모델 large language model
(“대형 언어 모델 Large Language Model” 2024)
대형 언어 모델(大型言語 - , 영어: large language model, LLM) 또는 거대 언어 모델(巨大言語 - )은 수많은 파라미터(보통 수십억 웨이트 이상)를 보유한 인공 신경망으로 구성되는 언어 모델이다. 자기 지도 학습이나 반자기지도학습을 사용하여 레이블링되지 않은 상당한 양의 텍스트로 훈련된다. LLM은 2018년 즈음에 모습을 드러냈으며 다양한 작업을 위해 수행된다. 이전의 특정 작업의 특수한 지도 학습 모델의 훈련 패러다임에서 벗어나 자연어 처리 연구로 초점이 옮겨졌다. 대규모 언어 모델(LLM) 은 AI 챗봇 기술을 가능하게 하는 요소이며 많은 화제를 불러일으키고 있는 주제 중 하나다. 대규모 언어 모델(LLM)의 작동 방식은 크게 3가지로 나뉘고 있다. 토큰화, 트랜스포머 모델, 프롬프트 등. 토큰화는 자연어 처리의 일부로 일반 인간 언어를 저수준 기계 시스템(LLMS)이 이해할 수 있는 시퀀스로 변환하는 작업을 말하며 여기에는 섹션에 숫자 값을 할당하고 빠른 분석을 위해 인코딩하는 작업이 수반된다. 이는 음성학의 AI 버전과 같으며 토큰화의 목적은 인공지능이 문장의 구조를 예측하기 위한 학습 가이드 또는 공식과 같은 컨텍스트 백터를 생성하는 것이 목적. 언어를 더 많이 연구하고 문장이 어떻게 구성되는지 이해할수록 특정 유형의 문장에서 다음 언어에 대한 예측이 더 정확해진다. 이로 인해 온라인에서 사람들이 사용하는 다양한 커뮤니케이션 스타일을 재현하는 모델을 개발할 수 있다. 트랜스포머 모델은 순차적 데이터를 검사하여 어떤 단어가 서로 뒤따를 가능성이 높은지 관련 패턴을 식별하는 신경망의 일종으로 각각 다른 분석을 수행하여 어떤 단어가 호환되는지 결정하는 계층으로 구성된다. 이러한 모델은 언어를 학습하지 않고 알고리즘에 의존하여 사람이 쓴 단어를 이해하고 예를 들어, 힙스터 커피 블로그를 제공함으로써 커피에 대한 표준 글을 작성하도록 학습시킨다. 프롬프트는 개발자가 정보를 분석하고 토큰화하기 위해 대규모 언어 모델 LLM에 제공하는 정보로 프롬프트는 기본적으로 다양한 사용 사례에서 LLM에 도움이 되는 학습 데이터이다. 더 정확한 프롬프트를 받을수록 LLM은 다음 단어를 더 잘 예측하고 정확한 문장을 구성할 수 있다. 따라서 딥러닝 AI의 적절한 학습을 위해서는 적절한 프롬프트를 선택하는 것이 중요하다.