RNN은 seq2seq이어서 대규모의 데이터 병렬처리가 어려웠는데 트랜스포머부터는 가능. multi head attention의 head들을 각각 다른 gpu에 뿌려서 학습가능.
트랜스포머는 작은모델 6층/6층 큰모델 12층씩
gpt4는 디코더 층도 100 200 넘어감
rnn은 번역, 요약 등등 모델이 다 따로 있었는데 트랜스포머는 다양한 task 동시에 가능
--
대규모 데이터 + 컴퓨팅파워
anthropic: openai에서 탈출한 사람들이 만듦. 기술은 그대로 갖고있되,,, 반기를 들음
meta llama, deepseek, X groq3
Multi Lingual을 놓치고 있따! gpt는 58개국어가능한데 아직 다른애들은 x.. 그래도 다개국어 가능
--
transformer까지는 지도학습이었음.
BERT는 transformer의 encoder만 떼서 씀. 다양한(11개) NLP task 중 10개에서 SOTA 달성 -> 근데 비지도학습 방식이었음. 무한한 양의 지도학습 데이터를 넣어서 비지도학습(레이블이 없는 데이터로..) MLM(Masked Language Modeling), NSP(Next Sentence Prediction) 방식 학습.
GPT-1
Self Supervised Learning
- 문장 생성이 목표.( 똑똑한 성능의 텍스트생성 모델을 만들면 분류도 가능하고, 뭐뭐도 가능하고 하니까 )
- 비지도학습을 통한 Pretraining, 지도학습을 통한 Fine tuning
GPT-2
논문: Language Models are Unsupervised Multitask Learners
- 비지도학습만으로도 task generation 수행 성공. SFT(Supervised Fine Tuning) 없이도 Downstream task 가능(우수한 통계적 성능-> 근데 실사용성은 별로더랏).
zero shot, few shot가능
'AI > LLM' 카테고리의 다른 글
Reranker (0) | 2025.02.24 |
---|---|
Embedding, Chunking (0) | 2025.02.24 |
Adaptive RAG (0) | 2025.02.24 |
Langchain (0) | 2025.02.10 |
tool calling (0) | 2025.02.10 |