Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | ||||
| 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 11 | 12 | 13 | 14 | 15 | 16 | 17 |
| 18 | 19 | 20 | 21 | 22 | 23 | 24 |
| 25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- kotlin coroutine
- go
- CloudWatch
- AWS EKS
- MySQL
- 컨텍스트 엔지니어링
- Pinpoint
- 티스토리챌린지
- CKA
- Java
- aws
- 정보처리기사 실기 기출문제
- Spring
- 바이브코딩
- golang
- minikube
- tucker의 go 언어 프로그래밍
- 공부
- Kubernetes
- 코틀린 코루틴의 정석
- 오블완
- PETERICA
- APM
- kotlin
- LLM
- Linux
- CKA 기출문제
- AI
- 기록으로 실력을 쌓자
- SRE
Archives
- Today
- Total
피터의 개발이야기
[AI] 멀티모달(Multi-modal)과 MoE(Mixture of Experts) 본문
반응형
ㅁ 들어가며
ㅇ 멀티모달(Multi-modal)과 MoE(Mixture of Experts)는 인공지능 모델에서 자주 언급되는 개념이지만, 서로 완전히 다른 목적과 구조를 가진 용어이다.
- 멀티모달: 다양한 입력 종류(텍스트, 이미지 등)를 함께 처리
- MoE: 여러 전문가 모델 중 일부만 사용해 효율성 극대화
ㅁ 멀티모달 (Multi-modal)
ㅇ 다양한 입력 형태(모달리티)를 동시에 처리할 수 있는 AI 모델
- 모달리티(Modality)란 데이터의 형태를 의미: 예) 텍스트, 이미지, 음성, 영상 등
- 멀티모달 모델은 이 서로 다른 정보를 통합하거나 병렬로 분석함으로써 복합적인 이해를 도출함.
- 목적: 다양한 유형의 데이터를 하나의 모델에서 통합 처리
- 대표 예:
- GPT-4o: 텍스트 + 이미지 + 음성 처리
- CLIP: 이미지 ↔ 텍스트 매핑
- Gemini, MM-ReAct, Flamingo 등
ㅁ MoE (Mixture of Experts)
ㅇ 여러 개의 전문 서브 모델(Expert) 중 일부만 선택적으로 사용하는 구조
- 하나의 큰 모델 대신, 여러 개의 서브 네트워크(Expert)를 두고,
입력에 따라 일부 전문가만 게이트(Gating Network)가 활성화시킴. - 예를 들어 100개의 expert 중 4개만 사용 → 계산 효율성 향상.
- 목적: 모델의 크기는 크게 유지하되, 계산 자원은 효율적으로 사용
- 대표 예:
- GShard, Switch Transformer, Google’s PaLM 2
- GPT-4(MoE 구조일 가능성 有)
ㅁ 비교 요약
| 항목 | Multi-modal | MoE (Mixture of Experts) |
| 핵심 개념 | 다양한 데이터 타입을 함께 처리 | 여러 전문가 중 일부만 선택적으로 사용 |
| 목적 | 데이터 표현 통합 | 계산 효율성과 성능 최적화 |
| 데이터 예시 | 텍스트, 이미지, 음성 등 | 모든 입력은 동일 모달(예: 텍스트) |
| 대표 모델 | GPT-4o, Gemini, Flamingo | Switch Transformer, PaLM 2 |
| 장점 | 더 풍부한 의미 이해 | 계산량 ↓, 성능 유지 ↑ |
| 구조적 특징 | 입력/출력이 다모달 | 내부 구조가 분산형 (게이팅 + Expert) |
ㅁ 함께 쓰이는 경우도 있음
- 최신 대형 모델에서는 멀티모달 + MoE를 함께 적용하는 경우도 있다.
- 예: Google Gemini는 멀티모달 입력 처리에 MoE 구조를 활용해 효율성도 챙김
- 예: Meta의 LLaMA 3도 멀티모달 확장과 MoE 연구를 병행
반응형
'AI > AI이론 | 공부' 카테고리의 다른 글
| [AI] Peterica의 AI공부와 비젼 정리 (36) | 2025.09.11 |
|---|---|
| [AI][Prompt] 바이브 코딩(Hackathon Vibe Coding Prompt)으로 1시간 앱만들기 (0) | 2025.09.03 |
| [AI] 딥러닝 기초 - 하이퍼파라이터 튜닝: 모델 성능 최적화의 핵심 (1) | 2024.12.09 |
| [AI] 전이학습: 딥러닝 모델의 효율적인 재사용 기술 (0) | 2024.12.09 |
| [AI] LLM의 Function Calling: AI와 외부 세계를 연결하다 (3) | 2024.11.06 |
Comments
