관리 메뉴

피터의 개발이야기

[AI] Transformer, BERT, GPT 한 번에 정리하기 본문

AI/AI이론 | 공부

[AI] Transformer, BERT, GPT 한 번에 정리하기

기록하는 백앤드개발자 2025. 12. 7. 22:18
반응형

[AI] Peterica의 AI공부와 비젼 정리

ㅁ 들어가며

 텍스트데이터 분석 13주차 강의를 듣고 개인적으로 Transformer → BERT → GPT 계열로 이어지는 핵심 개념을  정리해 보았다.

ㅇ 본 강의는 Transformer 구조의 핵심을 이해하고, 이를 기반으로 발전한 BERT(언어 이해)GPT(언어 생성) 모델의 차이와 학습 방식, 그리고 이후 GPT-3·3.5·4로 이어지는 발전 과정을 설명하는 데 초점이 맞춰져 있다.

 

 

ㅁTL;DR

  • Transformer는 Self-Attention으로 문맥을 전역적으로 바라볼 수 있게 만든 구조
  • BERT는 Encoder 기반 모델 → 언어 이해 능력 최고
  • GPT는 Decoder 기반 모델 → 언어 생성 능력 최고
  • GPT-3의 Few-shot 능력은 기존 NLP 패러다임을 바꿔 놓음
  • ChatGPT의 핵심 기술은 GPT-3.5 + RLHF
  • GPT-4는 멀티모달 AI로 확장

ㅁ Transformer: “Attention Is All You Need” 핵심 개념

NIPS-2017-attention-is-all-you-need-Paper.pdf
0.54MB
(참조: 논문 PDF, 특히 Figure 1 구조 설명 )

 

Transformer는 RNN·CNN을 제거하고 오직 Self-Attention만으로 시퀀스를 처리하는 구조다.

📌 왜 Transformer인가?

기존 RNN 계열 모델의 한계는 크게 두 가지:

  1. 순차적 계산으로 인한 병렬화 불가
  2. 긴 문맥 의존성 학습의 어려움

Self-Attention은 이 두 문제를 해결한다.

Transformer 구성

  1. Encoder N=6 블록
  2. Decoder N=6 블록

각 블록은 아래 요소로 구성된다:

  • Multi-head Self-Attention
  • Position-wise Feed-Forward Network
  • Residual Connection + LayerNorm
  • Positional Encoding(사인/코사인 기반)

Decoder는 Encoder와 연결되는 Encoder–Decoder Attention을 추가로 갖는다.

(참조: 논문 3.1 Encoder/Decoder 설명, Positional Encoding 수식 )

 


ㅁ BERT — “언어 이해(Language Understanding)”에 특화된 모델

ㅇ BERT는 Transformer의 Encoder만 사용해 만든 모델이다.
 → 목적: 문장을 깊게 이해하는 능력을 갖추는 것.

 

1. Pre-training vs Fine-tuning 개념

강의에서는 이를 “고등학생 vs 대학생” 비유로 설명한다.

  • Pre-training
    • 위키피디아, BookCorpus 같은 대규모 텍스트로
    • 언어에 대한 일반적 지식 학습
    • 비용·시간 매우 큼
  • Fine-tuning
    • 특정 태스크(QA, 감성분석 등)에 맞춰 조금만 추가로 학습
    • Pre-trained 모델을 기반으로 하므로 비용 훨씬 적음

 

2. BERT Pre-training: 두 가지 핵심 태스크

MLM (Masked Language Modeling)

  문장 일부를 [MASK]로 가리고, 원래 단어를 맞히는 훈련
   → 문맥 정보를 활용하는 양방향 이해 능력 확보
   → Transformer Encoder의 장점을 극대화함

 

② NSP (Next Sentence Prediction)

  두 문장이 연속 관계인지 판별
  → 문장 간 관계 이해
  → 후속 연구에서는 NSP가 꼭 필요하지 않다는 논문도 등장

 

 

3. 입력 구조의 특징

BERT 입력은 3개의 embedding을 더해 구성된다.

Embedding 종류 설명
Token embedding 단어 임베딩
Position embedding 위치 정보
Segment embedding 문장 A/B 구분(→ NSP 위해 사용)

입력 토큰 형식.

[CLS] Sentence A [SEP] Sentence B [SEP]
  • [CLS] : 문장 전체 표현을 요약하는 역할
  • [SEP] : 문장 구분자

 

4. BERT 모델 크기

 

모델 Layers Hidden Attention Heads
BERT-base 12 768 12
BERT-large 24 1024 16

→ 라지가 더 깊고 넓어 성능이 좋음 (녹취록에서도 언급)

 


ㅁ GPT — “언어 생성(Language Generation)”의 표준

ㅇ GPT — “언어 생성(Language Generation)”의 표준

  GPT는 Transformer Decoder만 사용한다.
  → 목적: 다음 단어를 생성하는 능력 극대화

 

1. Pre-training 방식: LM(Language Modeling)

문장 앞부분을 보고 다음 단어를 예측하는 방식.

P(next_token | previous_tokens)

→ 자연스럽게 좌→우 단방향 모델이 됨.


2. GPT-1 → GPT-2 → GPT-3로의 발전

GPT-1

  • BookCorpus 기반
  • Transformer Decoder 기반 LM

GPT-2

  • 더 큰 모델 + 더 많은 데이터
  • Zero-shot·Few-shot 능력이 일부 등장
    → Task-specific fine-tuning 없이도 문제 해결 가능

GPT-3 (175B parameter)

  • Few-shot learning이 폭발적으로 향상
  • Prompt에 단 몇 개의 예시만 넣어도 태스크 수행
  • Fine-tuning 없이도 다양한 작업이 가능함

→ 이 부분에서 GPT-3이 학계에 강력한 충격을 줌.

 


ㅁ Few-shot vs Fine-tuning

두 접근의 차이:

Fine-tuning

  • 모델의 weight를 업데이트
  • 특정 태스크에 최적화
  • 데이터 준비 필요

Few-shot

  • Weight를 바꾸지 않지만, 마치 Fine-tuning된 것처럼 작동한다.
  • “모델을 새로 학습시키지 않고도, 문제 예시 몇 개만 prompt 안에 넣으면 작업을 수행할 수 있게 하는 능력”을 말한다.
  • GPT-3의 가장 혁신적인 부분

예시 prompt:

Translate English to French:
English: "The book is on the table"
French: "Le livre est sur la table"

English: "How are you?"
French:

GPT-3은 바로 이어서 답을 생성함.

 

GPT는 Few-shot을 어떻게 가능하게 했을까?

 GPT는 “다음 단어를 생성하는 능력(next-token prediction)”만을 학습했다.

 그러나 그 “다음 단어 생성”이라는 단순 규칙은 충분히 큰 모델 + 충분히 많은 텍스트와 결합되면,

       ➡ 문제를 읽고, 예시 패턴을 이해하고, 규칙을 추론하는 능력
       ➡ 그리고 그 규칙에 따라 새로운 답을 생성하는 능력
     을 스스로 얻게 된다.

즉 GPT는 예시를 보면:
  - 예시의 구조를 파악하고
  - 입력과 출력의 관계를 파악하고

  - pattern을 일반화하여 새로운 입력에도 적용한다
  - 이 과정이 모두 불현듯 prompt 안에서만 일어난다.

 

ㅁ GPT-3 이후 등장한 새로운 패러다임

ㅇ GPT-3는 175B 파라미터와 방대한 pre-training 덕분에, 

      “예시를 보여주면 즉석에서 작업 방식을 스스로 추론할 수 있는 능력”
     을 획득했다.
ㅇ 이 능력이 Few-shot이다.

 

ㅁ Zero-shot / One-shot / Few-shot 개념 정확히 구분

방식 설명 모델 weight 업데이트?
Zero-shot 예시 없이 “설명만 보고” 태스크 수행
One-shot 예시 1개 보고 태스크 방식 추론
Few-shot 예시 여러 개 보고 더 잘 이해
Fine-tuning 데이터셋을 통해 weight 직접 조정

Few-shot이 특별한 이유는,

  Fine-tuning 수준의 태스크 적응력을, 학습 없이 prompt만으로 달성한다는 점이다.

 


ㅁ GPT-3.5 / InstructGPT / RLHF

GPT-3은 똑똑하지만 사람이 보기엔 부적절하거나 위험한 답변을 하기도 했다.

이를 해결하기 위해 등장한 것이:

🏆 RLHF (Reinforcement Learning from Human Feedback)

프로세스는 다음과 같다:

  1. 사람이 작성한 좋은 답변·나쁜 답변을 수집
  2. “좋은 답변을 평가하는” 리워드 모델 학습
  3. GPT 모델이 출력한 답변을 리워드 모델이 평가
  4. 강화학습을 통해 “사람이 원하는 답변에 더 가깝도록” 조정

InstructGPT = GPT-3 + RLHF
이후 ChatGPT 기반 모델의 토대가 되었다.

 


ㅁ GPT-4

(강의 후기 설명 )

  • 멀티모달 모델 (텍스트 + 이미지 입력 가능)
  • 모델 크기나 훈련 방식은 공개되지 않음
  • 현존 언어 모델 중 가장 강력한 general intelligence 능력 보유
  • 많은 연구자들이 새로운 모델 성능 비교 시 GPT-4 기준으로 삼음

 


ㅁ BERT vs GPT 한눈에 비교

항목 BERT GPT
목적 이해(Understanding) 생성(Generation)
사용 구조 Transformer Encoder Transformer Decoder
방향성 양방향(bidirectional) 단방향(unidirectional)
Pre-training MLM + NSP Language Modeling(next-token prediction)
출력 문장/단어 의미 representation 다음 단어 생성
활용 분야 QA, 분류, 문장 관계 챗봇, 번역, 요약, 생성

 


ㅁ 정리: 이 강의에서의 핵심 메시지

  1. Transformer는 RNN/CNN 없이도 언어를 잘 다룰 수 있다는 사실을 증명
  2. BERT“언어를 깊게 이해하는 모델”
  3. GPT는 “언어를 자연스럽게 생성하는 모델”
  4. GPT-3 이후 Few-shot 패러다임 등장 → Fine-tuning 필요성이 감소
  5. RLHF(InstructGPT)가 인간 친화적 AI의 출발점
  6. GPT-4로 이어지며 범용 AI 성능이 크게 도약
반응형
Comments