| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
- CloudWatch
- 티스토리챌린지
- 바이브코딩
- Kubernetes
- kotlin querydsl
- APM
- 기록으로 실력을 쌓자
- Spring
- kotlin coroutine
- tucker의 go 언어 프로그래밍
- CKA 기출문제
- Pinpoint
- 공부
- Java
- PETERICA
- 컨텍스트 엔지니어링
- go
- AI
- CKA
- Linux
- 코틀린 코루틴의 정석
- MySQL
- AWS EKS
- 오블완
- kotlin
- golang
- SRE
- minikube
- 정보처리기사 실기 기출문제
- aws
- Today
- Total
피터의 개발이야기
[AI] Transformer, BERT, GPT 한 번에 정리하기 본문
ㅁ 들어가며
ㅇ 텍스트데이터 분석 13주차 강의를 듣고 개인적으로 Transformer → BERT → GPT 계열로 이어지는 핵심 개념을 정리해 보았다.
ㅇ 본 강의는 Transformer 구조의 핵심을 이해하고, 이를 기반으로 발전한 BERT(언어 이해) 와 GPT(언어 생성) 모델의 차이와 학습 방식, 그리고 이후 GPT-3·3.5·4로 이어지는 발전 과정을 설명하는 데 초점이 맞춰져 있다.
ㅁTL;DR
- Transformer는 Self-Attention으로 문맥을 전역적으로 바라볼 수 있게 만든 구조
- BERT는 Encoder 기반 모델 → 언어 이해 능력 최고
- GPT는 Decoder 기반 모델 → 언어 생성 능력 최고
- GPT-3의 Few-shot 능력은 기존 NLP 패러다임을 바꿔 놓음
- ChatGPT의 핵심 기술은 GPT-3.5 + RLHF
- GPT-4는 멀티모달 AI로 확장
ㅁ Transformer: “Attention Is All You Need” 핵심 개념

Transformer는 RNN·CNN을 제거하고 오직 Self-Attention만으로 시퀀스를 처리하는 구조다.
📌 왜 Transformer인가?
기존 RNN 계열 모델의 한계는 크게 두 가지:
- 순차적 계산으로 인한 병렬화 불가
- 긴 문맥 의존성 학습의 어려움
Self-Attention은 이 두 문제를 해결한다.
Transformer 구성
- Encoder N=6 블록
- Decoder N=6 블록
각 블록은 아래 요소로 구성된다:
- Multi-head Self-Attention
- Position-wise Feed-Forward Network
- Residual Connection + LayerNorm
- Positional Encoding(사인/코사인 기반)
Decoder는 Encoder와 연결되는 Encoder–Decoder Attention을 추가로 갖는다.
(참조: 논문 3.1 Encoder/Decoder 설명, Positional Encoding 수식 )
ㅁ BERT — “언어 이해(Language Understanding)”에 특화된 모델
ㅇ BERT는 Transformer의 Encoder만 사용해 만든 모델이다.
→ 목적: 문장을 깊게 이해하는 능력을 갖추는 것.
1. Pre-training vs Fine-tuning 개념
강의에서는 이를 “고등학생 vs 대학생” 비유로 설명한다.
- Pre-training
- 위키피디아, BookCorpus 같은 대규모 텍스트로
- 언어에 대한 일반적 지식 학습
- 비용·시간 매우 큼
- Fine-tuning
- 특정 태스크(QA, 감성분석 등)에 맞춰 조금만 추가로 학습
- Pre-trained 모델을 기반으로 하므로 비용 훨씬 적음
2. BERT Pre-training: 두 가지 핵심 태스크
① MLM (Masked Language Modeling)
문장 일부를 [MASK]로 가리고, 원래 단어를 맞히는 훈련
→ 문맥 정보를 활용하는 양방향 이해 능력 확보
→ Transformer Encoder의 장점을 극대화함
② NSP (Next Sentence Prediction)
두 문장이 연속 관계인지 판별
→ 문장 간 관계 이해
→ 후속 연구에서는 NSP가 꼭 필요하지 않다는 논문도 등장
3. 입력 구조의 특징
BERT 입력은 3개의 embedding을 더해 구성된다.
| Embedding 종류 | 설명 |
| Token embedding | 단어 임베딩 |
| Position embedding | 위치 정보 |
| Segment embedding | 문장 A/B 구분(→ NSP 위해 사용) |
입력 토큰 형식.
[CLS] Sentence A [SEP] Sentence B [SEP]
[CLS]: 문장 전체 표현을 요약하는 역할[SEP]: 문장 구분자
4. BERT 모델 크기
| 모델 | Layers | Hidden | Attention Heads |
| BERT-base | 12 | 768 | 12 |
| BERT-large | 24 | 1024 | 16 |
→ 라지가 더 깊고 넓어 성능이 좋음 (녹취록에서도 언급)
ㅁ GPT — “언어 생성(Language Generation)”의 표준
ㅇ GPT — “언어 생성(Language Generation)”의 표준
GPT는 Transformer Decoder만 사용한다.
→ 목적: 다음 단어를 생성하는 능력 극대화
1. Pre-training 방식: LM(Language Modeling)
문장 앞부분을 보고 다음 단어를 예측하는 방식.
P(next_token | previous_tokens)
→ 자연스럽게 좌→우 단방향 모델이 됨.
2. GPT-1 → GPT-2 → GPT-3로의 발전
GPT-1
- BookCorpus 기반
- Transformer Decoder 기반 LM
GPT-2
- 더 큰 모델 + 더 많은 데이터
- Zero-shot·Few-shot 능력이 일부 등장
→ Task-specific fine-tuning 없이도 문제 해결 가능
GPT-3 (175B parameter)
- Few-shot learning이 폭발적으로 향상
- Prompt에 단 몇 개의 예시만 넣어도 태스크 수행
- Fine-tuning 없이도 다양한 작업이 가능함
→ 이 부분에서 GPT-3이 학계에 강력한 충격을 줌.
ㅁ Few-shot vs Fine-tuning
두 접근의 차이:
Fine-tuning
- 모델의 weight를 업데이트
- 특정 태스크에 최적화
- 데이터 준비 필요
Few-shot
- Weight를 바꾸지 않지만, 마치 Fine-tuning된 것처럼 작동한다.
- “모델을 새로 학습시키지 않고도, 문제 예시 몇 개만 prompt 안에 넣으면 작업을 수행할 수 있게 하는 능력”을 말한다.
- GPT-3의 가장 혁신적인 부분
예시 prompt:
Translate English to French:
English: "The book is on the table"
French: "Le livre est sur la table"
English: "How are you?"
French:
GPT-3은 바로 이어서 답을 생성함.
GPT는 Few-shot을 어떻게 가능하게 했을까?
ㅇ GPT는 “다음 단어를 생성하는 능력(next-token prediction)”만을 학습했다.
ㅇ 그러나 그 “다음 단어 생성”이라는 단순 규칙은 충분히 큰 모델 + 충분히 많은 텍스트와 결합되면,
➡ 문제를 읽고, 예시 패턴을 이해하고, 규칙을 추론하는 능력
➡ 그리고 그 규칙에 따라 새로운 답을 생성하는 능력
을 스스로 얻게 된다.
즉 GPT는 예시를 보면:
- 예시의 구조를 파악하고
- 입력과 출력의 관계를 파악하고
- pattern을 일반화하여 새로운 입력에도 적용한다
- 이 과정이 모두 불현듯 prompt 안에서만 일어난다.
ㅁ GPT-3 이후 등장한 새로운 패러다임
ㅇ GPT-3는 175B 파라미터와 방대한 pre-training 덕분에,
“예시를 보여주면 즉석에서 작업 방식을 스스로 추론할 수 있는 능력”
을 획득했다.
ㅇ 이 능력이 Few-shot이다.
ㅁ Zero-shot / One-shot / Few-shot 개념 정확히 구분
| 방식 | 설명 | 모델 weight 업데이트? |
| Zero-shot | 예시 없이 “설명만 보고” 태스크 수행 | ❌ |
| One-shot | 예시 1개 보고 태스크 방식 추론 | ❌ |
| Few-shot | 예시 여러 개 보고 더 잘 이해 | ❌ |
| Fine-tuning | 데이터셋을 통해 weight 직접 조정 | ⭕ |
Few-shot이 특별한 이유는,
Fine-tuning 수준의 태스크 적응력을, 학습 없이 prompt만으로 달성한다는 점이다.
ㅁ GPT-3.5 / InstructGPT / RLHF
GPT-3은 똑똑하지만 사람이 보기엔 부적절하거나 위험한 답변을 하기도 했다.
이를 해결하기 위해 등장한 것이:
🏆 RLHF (Reinforcement Learning from Human Feedback)
프로세스는 다음과 같다:
- 사람이 작성한 좋은 답변·나쁜 답변을 수집
- “좋은 답변을 평가하는” 리워드 모델 학습
- GPT 모델이 출력한 답변을 리워드 모델이 평가
- 강화학습을 통해 “사람이 원하는 답변에 더 가깝도록” 조정
InstructGPT = GPT-3 + RLHF
이후 ChatGPT 기반 모델의 토대가 되었다.
ㅁ GPT-4
(강의 후기 설명 )
- 멀티모달 모델 (텍스트 + 이미지 입력 가능)
- 모델 크기나 훈련 방식은 공개되지 않음
- 현존 언어 모델 중 가장 강력한 general intelligence 능력 보유
- 많은 연구자들이 새로운 모델 성능 비교 시 GPT-4 기준으로 삼음
ㅁ BERT vs GPT 한눈에 비교
| 항목 | BERT | GPT |
| 목적 | 이해(Understanding) | 생성(Generation) |
| 사용 구조 | Transformer Encoder | Transformer Decoder |
| 방향성 | 양방향(bidirectional) | 단방향(unidirectional) |
| Pre-training | MLM + NSP | Language Modeling(next-token prediction) |
| 출력 | 문장/단어 의미 representation | 다음 단어 생성 |
| 활용 분야 | QA, 분류, 문장 관계 | 챗봇, 번역, 요약, 생성 |
ㅁ 정리: 이 강의에서의 핵심 메시지
- Transformer는 RNN/CNN 없이도 언어를 잘 다룰 수 있다는 사실을 증명
- BERT는 “언어를 깊게 이해하는 모델”
- GPT는 “언어를 자연스럽게 생성하는 모델”
- GPT-3 이후 Few-shot 패러다임 등장 → Fine-tuning 필요성이 감소
- RLHF(InstructGPT)가 인간 친화적 AI의 출발점
- GPT-4로 이어지며 범용 AI 성능이 크게 도약
'AI > AI이론 | 공부' 카테고리의 다른 글
| [AI] LLM 양자화와 벡터 양자화(VQ)의 차이 (0) | 2025.12.10 |
|---|---|
| [AI] Transformer: Attention Is All You Need 논문 요약 (0) | 2025.12.07 |
| [AI] Peterica의 AI공부와 비젼 정리 (36) | 2025.09.11 |
| [AI][Prompt] 바이브 코딩(Hackathon Vibe Coding Prompt)으로 1시간 앱만들기 (0) | 2025.09.03 |
| [AI] 멀티모달(Multi-modal)과 MoE(Mixture of Experts) (1) | 2025.08.05 |
