일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- CloudWatch
- mysql 튜닝
- 공부
- kotlin coroutine
- Linux
- APM
- Kubernetes
- kotlin querydsl
- 정보처리기사실기 기출문제
- 티스토리챌린지
- Spring
- CKA
- 코틀린 코루틴의 정석
- aws
- AI
- PETERICA
- minikube
- Elasticsearch
- MySQL
- AWS EKS
- kotlin
- CKA 기출문제
- 정보처리기사 실기
- 정보처리기사 실기 기출문제
- 기록으로 실력을 쌓자
- Pinpoint
- Java
- 오블완
- kotlin spring
- IntelliJ
- Today
- Total
피터의 개발이야기
[AI] 언어 모델의 병렬처리를 가능하게 한 트렌스포머(Transformer) 기술 본문
ㅁ 들어가며
ㅇ 이번 글에서는 트랜스 포머 기술에 대해서 정리해 보았다.
ㅇ 트랜스포머 기술은 LLM(Large Language Model)의 핵심 요소로, 여러 가지 중요한 장점을 제공합니다.
ㅁ 트랜스포머: LLM의 게임 체인저
트랜스포머 아키텍처는 LLM 발전의 핵심 동력이 되었다.
ㅇ 병렬 처리 능력
트랜스포머의 가장 큰 장점 중 하나는 뛰어난 병렬 처리 능력이다. 기존의 순차적 모델과 달리, 트랜스포머는 입력 시퀀스를 동시에 처리할 수 있어 학습 및 추론 속도가 크게 향상되었다. 기존의 순차적 모델에서 언어는 단어의 연관관계를 학습하기 위해서는 순차적으로 처리해야 했고, 이는 앞의 단어를 분석한 후 그 다음 글자를 분석해야하는 한계점이 있었다.
ㅇ 장거리 의존성 포착
트랜스포머의 자기 주의(self-attention) 메커니즘은 텍스트의 장거리 의존성을 효과적으로 포착한다. 이는 문맥을 더 잘 이해하고 복잡한 언어 구조를 파악하는 데 큰 도움이 된다.
ㅇ 확장성
트랜스포머 모델은 높은 확장성을 자랑합니다. 더 많은 데이터와 더 큰 모델 크기로 쉽게 확장할 수 있어, GPT-3와 같은 거대 언어 모델의 개발을 가능하게 했습니다.
ㅁ 응용 분야의 확장
ㅇ 자연어 처리
번역, 요약, 질문 답변 등 다양한 NLP 작업에서 뛰어난 성능을 보인다.
ㅇ 코드 생성
프로그래밍 언어 이해 및 코드 자동 생성 능력을 갖추고 있다.
ㅇ 창의적 글쓰기
시나리오 작성, 광고 문구 생성 등 창의적인 텍스트 생성이 가능하다.
ㅁ 미래 전망
트랜스포머 기술은 계속해서 발전하고 있다. 최근에는 효율성을 높이고 계산 비용을 줄이는 방향으로 연구가 진행되고 있으며, 특정 도메인에 특화된 LLM 개발도 활발히 이루어지고 있다. 트랜스포머 기술은 LLM의 성능을 비약적으로 향상시켰고, 앞으로도 AI 발전의 중심에 서 있을 것다.
ㅁ LLM의 아키텍처
아키텍처 | 설명 | 적합한 대상 |
트랜스포머를 통한 양방향 인코더 표현(BERT) | 인코더 전용 아키텍처로 언어를 이해할 수 있는 작업에 가장 적합합니다. | 분류 및 감정 분석 |
사전 학습된 생성형 트랜스포머(GPT) | 생성 작업에 적합하고 판별 작업에 라벨이 지정된 데이터로 미세 조정된 디코더 전용 아키텍처입니다. 단방향 아키텍처를 고려할 때 컨텍스트는 앞으로만 흐릅니다. GPT 프레임워크는 생성적 사전 학습과 판별적 미세 조정을 통해 단일 작업에 구애받지 않는 모델을 사용하여 강력한 자연어 이해를 달성할 수 있도록 지원합니다. |
텍스트 연관성, 문장 유사성, 질문 답변. |
텍스트-텍스트 변환기(시퀀스-시퀀스 모델) | 인코더-디코더 아키텍처. 전이 학습 접근 방식을 활용하여 모든 텍스트 기반 언어 문제를 텍스트 대 텍스트 형식으로 변환합니다. 즉, 텍스트를 입력으로 받아 다음 텍스트를 출력으로 생성하는 방식입니다. 양방향 아키텍처를 사용하면 컨텍스트가 양방향으로 흐릅니다. | 번역, 질문 및 답변, 요약 |
전문가 혼합(MoE) | 모든 아키텍처에 적용할 수 있는 모델 아키텍처 결정. 최소한의 계산 오버헤드를 추가하면서 모델 용량을 크게 확장하고 고밀도 모델을 스파스 모델로 변환하도록 설계되었습니다. MoE 계층은 여러 전문가 모델과 스파스 게이팅 기능으로 구성됩니다. 게이트는 추론 중에 각 입력을 상위 K(K>=2 또는 K=1)의 최고 전문가에게 라우팅합니다. | 짧은 지연 시간으로 추론 중 계산 효율성을 위해 작업 전반에서 잘 일반화합니다. |
인용: LLM 기술 마스터하기: 학습
ㅁ 토크나이징(Tokenizing)
토크나이징이란 자연어 처리에서 텍스트를 처리할 때 최소 단위인 토큰 형태로 텍스트를 만드는 것이다.
문장 형태의 데이터를 처리하기 위해 제일 처음 수행해야 하는 기본적인 작업(텍스트 전처리 과정)이다.
LLM을 이야기 할 때에 자주 언급되는 개념이다.
ㅁ 함께 보면 좋은 사이트
ㅇ [전문가 강좌] 당신의 LLM이 잘 동작하지 않는 이유
ㅇ 도메인 특화 LLM 성능을 높이는 AI 기술 트렌드
'AI' 카테고리의 다른 글
[AI] 최근 대규모 언어 모델(LLM)의 급격한 성장 이유 (1) | 2024.09.05 |
---|---|
[AI] Deep Learning에서의 Collapse (Collapsing) 현상 (0) | 2024.09.04 |
[AI] Productivity Paradox란? (1) | 2024.08.31 |
[AI] 멀티모달(Multi Modal) AI란? (1) | 2024.08.30 |
[AI] Llama 3 로컬 설치하기 (0) | 2024.08.29 |