[AI] Transformer, BERT, GPT 한 번에 정리하기

Notice

Recent Posts

Recent Comments

Link

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

피터의 개발이야기

[AI] Transformer, BERT, GPT 한 번에 정리하기 본문

AI/AI이론 | 공부

[AI] Transformer, BERT, GPT 한 번에 정리하기

기록하는 백앤드개발자 2025. 12. 7. 22:18

[AI] Peterica의 AI공부와 비젼 정리

ㅁ 들어가며

ㅇ 텍스트데이터 분석 13주차 강의를 듣고 개인적으로 Transformer → BERT → GPT 계열로 이어지는 핵심 개념을 정리해 보았다.

ㅇ 본 강의는 Transformer 구조의 핵심을 이해하고, 이를 기반으로 발전한 BERT(언어 이해) 와 GPT(언어 생성) 모델의 차이와 학습 방식, 그리고 이후 GPT-3·3.5·4로 이어지는 발전 과정을 설명하는 데 초점이 맞춰져 있다.

ㅁTL;DR

Transformer는 Self-Attention으로 문맥을 전역적으로 바라볼 수 있게 만든 구조
BERT는 Encoder 기반 모델 → 언어 이해 능력 최고
GPT는 Decoder 기반 모델 → 언어 생성 능력 최고
GPT-3의 Few-shot 능력은 기존 NLP 패러다임을 바꿔 놓음
ChatGPT의 핵심 기술은 GPT-3.5 + RLHF
GPT-4는 멀티모달 AI로 확장

ㅁ Transformer: “Attention Is All You Need” 핵심 개념

NIPS-2017-attention-is-all-you-need-Paper.pdf

0.54MB

Transformer는 RNN·CNN을 제거하고 오직 Self-Attention만으로 시퀀스를 처리하는 구조다.

📌 왜 Transformer인가?

기존 RNN 계열 모델의 한계는 크게 두 가지:

순차적 계산으로 인한 병렬화 불가
긴 문맥 의존성 학습의 어려움

Self-Attention은 이 두 문제를 해결한다.

Transformer 구성

Encoder N=6 블록
Decoder N=6 블록

각 블록은 아래 요소로 구성된다:

Multi-head Self-Attention
Position-wise Feed-Forward Network
Residual Connection + LayerNorm
Positional Encoding(사인/코사인 기반)

Decoder는 Encoder와 연결되는 Encoder–Decoder Attention을 추가로 갖는다.

(참조: 논문 3.1 Encoder/Decoder 설명, Positional Encoding 수식 )

ㅁ BERT — “언어 이해(Language Understanding)”에 특화된 모델

ㅇ BERT는 Transformer의 Encoder만 사용해 만든 모델이다.
→ 목적: 문장을 깊게 이해하는 능력을 갖추는 것.

1. Pre-training vs Fine-tuning 개념

강의에서는 이를 “고등학생 vs 대학생” 비유로 설명한다.

Pre-training
- 위키피디아, BookCorpus 같은 대규모 텍스트로
- 언어에 대한 일반적 지식 학습
- 비용·시간 매우 큼
Fine-tuning
- 특정 태스크(QA, 감성분석 등)에 맞춰 조금만 추가로 학습
- Pre-trained 모델을 기반으로 하므로 비용 훨씬 적음

2. BERT Pre-training: 두 가지 핵심 태스크

① MLM (Masked Language Modeling)

문장 일부를 [MASK]로 가리고, 원래 단어를 맞히는 훈련
→ 문맥 정보를 활용하는 양방향 이해 능력 확보
→ Transformer Encoder의 장점을 극대화함

② NSP (Next Sentence Prediction)

두 문장이 연속 관계인지 판별
→ 문장 간 관계 이해
→ 후속 연구에서는 NSP가 꼭 필요하지 않다는 논문도 등장

3. 입력 구조의 특징

BERT 입력은 3개의 embedding을 더해 구성된다.

Embedding 종류	설명
Token embedding	단어 임베딩
Position embedding	위치 정보
Segment embedding	문장 A/B 구분(→ NSP 위해 사용)

입력 토큰 형식.

[CLS] Sentence A [SEP] Sentence B [SEP]

[CLS] : 문장 전체 표현을 요약하는 역할
[SEP] : 문장 구분자

4. BERT 모델 크기

모델	Layers	Hidden	Attention Heads
BERT-base	12	768	12
BERT-large	24	1024	16

→ 라지가 더 깊고 넓어 성능이 좋음 (녹취록에서도 언급)

ㅁ GPT — “언어 생성(Language Generation)”의 표준

ㅇ GPT — “언어 생성(Language Generation)”의 표준

GPT는 Transformer Decoder만 사용한다.
→ 목적: 다음 단어를 생성하는 능력 극대화

1. Pre-training 방식: LM(Language Modeling)

문장 앞부분을 보고 다음 단어를 예측하는 방식.

P(next_token | previous_tokens)

→ 자연스럽게 좌→우 단방향 모델이 됨.

2. GPT-1 → GPT-2 → GPT-3로의 발전

GPT-1

BookCorpus 기반
Transformer Decoder 기반 LM

GPT-2

더 큰 모델 + 더 많은 데이터
Zero-shot·Few-shot 능력이 일부 등장
→ Task-specific fine-tuning 없이도 문제 해결 가능

GPT-3 (175B parameter)

Few-shot learning이 폭발적으로 향상
Prompt에 단 몇 개의 예시만 넣어도 태스크 수행
Fine-tuning 없이도 다양한 작업이 가능함

→ 이 부분에서 GPT-3이 학계에 강력한 충격을 줌.

ㅁ Few-shot vs Fine-tuning

두 접근의 차이:

Fine-tuning

모델의 weight를 업데이트
특정 태스크에 최적화
데이터 준비 필요

Few-shot

Weight를 바꾸지 않지만, 마치 Fine-tuning된 것처럼 작동한다.
“모델을 새로 학습시키지 않고도, 문제 예시 몇 개만 prompt 안에 넣으면 작업을 수행할 수 있게 하는 능력”을 말한다.
GPT-3의 가장 혁신적인 부분

예시 prompt:

Translate English to French:
English: "The book is on the table"
French: "Le livre est sur la table"

English: "How are you?"
French:

GPT-3은 바로 이어서 답을 생성함.

GPT는 Few-shot을 어떻게 가능하게 했을까?

ㅇ GPT는 “다음 단어를 생성하는 능력(next-token prediction)”만을 학습했다.

ㅇ 그러나 그 “다음 단어 생성”이라는 단순 규칙은 충분히 큰 모델 + 충분히 많은 텍스트와 결합되면,

➡ 문제를 읽고, 예시 패턴을 이해하고, 규칙을 추론하는 능력
➡ 그리고 그 규칙에 따라 새로운 답을 생성하는 능력
을 스스로 얻게 된다.

즉 GPT는 예시를 보면:
- 예시의 구조를 파악하고
- 입력과 출력의 관계를 파악하고

- pattern을 일반화하여 새로운 입력에도 적용한다
- 이 과정이 모두 불현듯 prompt 안에서만 일어난다.

ㅁ GPT-3 이후 등장한 새로운 패러다임

ㅇ GPT-3는 175B 파라미터와 방대한 pre-training 덕분에,

“예시를 보여주면 즉석에서 작업 방식을 스스로 추론할 수 있는 능력”
을 획득했다.
ㅇ 이 능력이 Few-shot이다.

ㅁ Zero-shot / One-shot / Few-shot 개념 정확히 구분

방식	설명	모델 weight 업데이트?
Zero-shot	예시 없이 “설명만 보고” 태스크 수행	❌
One-shot	예시 1개 보고 태스크 방식 추론	❌
Few-shot	예시 여러 개 보고 더 잘 이해	❌
Fine-tuning	데이터셋을 통해 weight 직접 조정	⭕

Few-shot이 특별한 이유는,

Fine-tuning 수준의 태스크 적응력을, 학습 없이 prompt만으로 달성한다는 점이다.

ㅁ GPT-3.5 / InstructGPT / RLHF

GPT-3은 똑똑하지만 사람이 보기엔 부적절하거나 위험한 답변을 하기도 했다.

이를 해결하기 위해 등장한 것이:

🏆 RLHF (Reinforcement Learning from Human Feedback)

프로세스는 다음과 같다:

사람이 작성한 좋은 답변·나쁜 답변을 수집
“좋은 답변을 평가하는” 리워드 모델 학습
GPT 모델이 출력한 답변을 리워드 모델이 평가
강화학습을 통해 “사람이 원하는 답변에 더 가깝도록” 조정

InstructGPT = GPT-3 + RLHF
이후 ChatGPT 기반 모델의 토대가 되었다.

ㅁ GPT-4

(강의 후기 설명 )

멀티모달 모델 (텍스트 + 이미지 입력 가능)
모델 크기나 훈련 방식은 공개되지 않음
현존 언어 모델 중 가장 강력한 general intelligence 능력 보유
많은 연구자들이 새로운 모델 성능 비교 시 GPT-4 기준으로 삼음

ㅁ BERT vs GPT 한눈에 비교

항목	BERT	GPT
목적	이해(Understanding)	생성(Generation)
사용 구조	Transformer Encoder	Transformer Decoder
방향성	양방향(bidirectional)	단방향(unidirectional)
Pre-training	MLM + NSP	Language Modeling(next-token prediction)
출력	문장/단어 의미 representation	다음 단어 생성
활용 분야	QA, 분류, 문장 관계	챗봇, 번역, 요약, 생성

ㅁ 정리: 이 강의에서의 핵심 메시지

Transformer는 RNN/CNN 없이도 언어를 잘 다룰 수 있다는 사실을 증명
BERT는 “언어를 깊게 이해하는 모델”
GPT는 “언어를 자연스럽게 생성하는 모델”
GPT-3 이후 Few-shot 패러다임 등장 → Fine-tuning 필요성이 감소
RLHF(InstructGPT)가 인간 친화적 AI의 출발점
GPT-4로 이어지며 범용 AI 성능이 크게 도약

'AI > AI이론 | 공부' 카테고리의 다른 글

[AI] LLM 양자화와 벡터 양자화(VQ)의 차이 (0)	2025.12.10
[AI] Transformer: Attention Is All You Need 논문 요약 (0)	2025.12.07
[AI] Peterica의 AI공부와 비젼 정리 (36)	2025.09.11
[AI][Prompt] 바이브 코딩(Hackathon Vibe Coding Prompt)으로 1시간 앱만들기 (0)	2025.09.03
[AI] 멀티모달(Multi-modal)과 MoE(Mixture of Experts) (1)	2025.08.05

'AI/AI이론 | 공부' Related Articles

Comments

피터의 개발이야기

[AI] Transformer, BERT, GPT 한 번에 정리하기 본문

[AI] Transformer, BERT, GPT 한 번에 정리하기

ㅁ 들어가며

ㅁTL;DR

ㅁ Transformer: “Attention Is All You Need” 핵심 개념

📌 왜 Transformer인가?

Transformer 구성

ㅁ BERT — “언어 이해(Language Understanding)”에 특화된 모델

ㅁ GPT — “언어 생성(Language Generation)”의 표준

ㅁ Few-shot vs Fine-tuning

Fine-tuning

Few-shot

GPT는 Few-shot을 어떻게 가능하게 했을까?

ㅁ GPT-3 이후 등장한 새로운 패러다임

ㅁ Zero-shot / One-shot / Few-shot 개념 정확히 구분

ㅁ GPT-3.5 / InstructGPT / RLHF

🏆 RLHF (Reinforcement Learning from Human Feedback)

ㅁ GPT-4

ㅁ BERT vs GPT 한눈에 비교

ㅁ 정리: 이 강의에서의 핵심 메시지

'AI > AI이론 | 공부' 카테고리의 다른 글

티스토리툴바