AI/LLM

구조

아나엘 2025. 2. 24. 13:08

RNN은 seq2seq이어서 대규모의 데이터 병렬처리가 어려웠는데 트랜스포머부터는 가능. multi head attention의 head들을 각각 다른 gpu에 뿌려서 학습가능.

 

트랜스포머는 작은모델 6층/6층 큰모델 12층씩

gpt4는 디코더 층도 100 200 넘어감

 

rnn은 번역, 요약 등등 모델이 다 따로 있었는데 트랜스포머는 다양한 task 동시에 가능

--

대규모 데이터 + 컴퓨팅파워

anthropic: openai에서 탈출한 사람들이 만듦. 기술은 그대로 갖고있되,,, 반기를 들음

meta llama, deepseek, X groq3

 

Multi Lingual을 놓치고 있따! gpt는 58개국어가능한데 아직 다른애들은 x.. 그래도 다개국어 가능

--

transformer까지는 지도학습이었음.

BERT는 transformer의 encoder만 떼서 씀. 다양한(11개) NLP task 중 10개에서 SOTA 달성 -> 근데 비지도학습 방식이었음. 무한한 양의 지도학습 데이터를 넣어서 비지도학습(레이블이 없는 데이터로..) MLM(Masked Language Modeling), NSP(Next Sentence Prediction) 방식 학습. 


GPT-1

Self Supervised Learning

- 문장 생성이 목표.( 똑똑한 성능의 텍스트생성 모델을 만들면 분류도 가능하고, 뭐뭐도 가능하고 하니까 )

- 비지도학습을 통한 Pretraining, 지도학습을 통한 Fine tuning

 

GPT-2

논문: Language Models are Unsupervised Multitask Learners

 - 비지도학습만으로도 task generation 수행 성공. SFT(Supervised Fine Tuning) 없이도 Downstream task 가능(우수한 통계적 성능-> 근데 실사용성은 별로더랏).

zero shot, few shot가능

반응형

'AI > LLM' 카테고리의 다른 글

Reranker  (0) 2025.02.24
Embedding, Chunking  (0) 2025.02.24
Adaptive RAG  (0) 2025.02.24
Langchain  (0) 2025.02.10
tool calling  (0) 2025.02.10