[AI] 멀티모달(Multi-modal)과 MoE(Mixture of Experts)

Notice

Recent Posts

Tags more

Archives

관리 메뉴

피터의 개발이야기

AI/AI이론 | 공부

기록하는 백앤드개발자 2025. 8. 5. 07:28

ㅇ 멀티모달(Multi-modal)과 MoE(Mixture of Experts)는 인공지능 모델에서 자주 언급되는 개념이지만, 서로 완전히 다른 목적과 구조를 가진 용어이다.

- 멀티모달: 다양한 입력 종류(텍스트, 이미지 등)를 함께 처리
- MoE: 여러 전문가 모델 중 일부만 사용해 효율성 극대화

ㅇ 다양한 입력 형태(모달리티)를 동시에 처리할 수 있는 AI 모델

모달리티(Modality)란 데이터의 형태를 의미: 예) 텍스트, 이미지, 음성, 영상 등
멀티모달 모델은 이 서로 다른 정보를 통합하거나 병렬로 분석함으로써 복합적인 이해를 도출함.
목적: 다양한 유형의 데이터를 하나의 모델에서 통합 처리
대표 예:
- GPT-4o: 텍스트 + 이미지 + 음성 처리
- CLIP: 이미지 ↔ 텍스트 매핑
- Gemini, MM-ReAct, Flamingo 등

ㅇ 여러 개의 전문 서브 모델(Expert) 중 일부만 선택적으로 사용하는 구조

하나의 큰 모델 대신, 여러 개의 서브 네트워크(Expert)를 두고,
입력에 따라 일부 전문가만 게이트(Gating Network)가 활성화시킴.
예를 들어 100개의 expert 중 4개만 사용 → 계산 효율성 향상.
목적: 모델의 크기는 크게 유지하되, 계산 자원은 효율적으로 사용
대표 예:
- GShard, Switch Transformer, Google’s PaLM 2
- GPT-4(MoE 구조일 가능성 有)

최신 대형 모델에서는 멀티모달 + MoE를 함께 적용하는 경우도 있다.
- 예: Google Gemini는 멀티모달 입력 처리에 MoE 구조를 활용해 효율성도 챙김
- 예: Meta의 LLaMA 3도 멀티모달 확장과 MoE 연구를 병행

[AI] Peterica의 AI공부와 비젼 정리 (36)	2025.09.11
[AI][Prompt] 바이브 코딩(Hackathon Vibe Coding Prompt)으로 1시간 앱만들기 (0)	2025.09.03
[AI] 딥러닝 기초 - 하이퍼파라이터 튜닝: 모델 성능 최적화의 핵심 (1)	2024.12.09
[AI] 전이학습: 딥러닝 모델의 효율적인 재사용 기술 (0)	2024.12.09
[AI] LLM의 Function Calling: AI와 외부 세계를 연결하다 (3)	2024.11.06

'AI/AI이론 | 공부' Related Articles

Comments