관리 메뉴

피터의 개발이야기

[AI] 멀티모달(Multi-modal)과 MoE(Mixture of Experts) 본문

AI/AI이론 | 공부

[AI] 멀티모달(Multi-modal)과 MoE(Mixture of Experts)

기록하는 백앤드개발자 2025. 8. 5. 07:28
반응형

[AI] Peterica의 AI공부와 비젼 정리

ㅁ 들어가며

ㅇ 멀티모달(Multi-modal)과 MoE(Mixture of Experts)는 인공지능 모델에서 자주 언급되는 개념이지만, 서로 완전히 다른 목적구조를 가진 용어이다. 

 

- 멀티모달: 다양한 입력 종류(텍스트, 이미지 등)를 함께 처리
- MoE: 여러 전문가 모델 중 일부만 사용해 효율성 극대화

 

ㅁ 멀티모달 (Multi-modal)

ㅇ 다양한 입력 형태(모달리티)를 동시에 처리할 수 있는 AI 모델

  • 모달리티(Modality)란 데이터의 형태를 의미: 예) 텍스트, 이미지, 음성, 영상 등
  • 멀티모달 모델은 이 서로 다른 정보를 통합하거나 병렬로 분석함으로써 복합적인 이해를 도출함.
  • 목적다양한 유형의 데이터를 하나의 모델에서 통합 처리
  • 대표 예:
    • GPT-4o: 텍스트 + 이미지 + 음성 처리
    • CLIP: 이미지 ↔ 텍스트 매핑
    • Gemini, MM-ReAct, Flamingo 

 

ㅁ MoE (Mixture of Experts)

ㅇ 여러 개의 전문 서브 모델(Expert) 중 일부만 선택적으로 사용하는 구조

  • 하나의 큰 모델 대신, 여러 개의 서브 네트워크(Expert)를 두고,
    입력에 따라 일부 전문가만 게이트(Gating Network)가 활성화시킴.
  • 예를 들어 100개의 expert 중 4개만 사용 → 계산 효율성 향상.
  • 목적: 모델의 크기는 크게 유지하되, 계산 자원은 효율적으로 사용
  • 대표 예:
    • GShard, Switch Transformer, Google’s PaLM 2
    • GPT-4(MoE 구조일 가능성 有)

비교 요약

항목 Multi-modal MoE (Mixture of Experts)
핵심 개념 다양한 데이터 타입을 함께 처리 여러 전문가 중 일부만 선택적으로 사용
목적 데이터 표현 통합 계산 효율성과 성능 최적화
데이터 예시 텍스트, 이미지, 음성 등 모든 입력은 동일 모달(예: 텍스트)
대표 모델 GPT-4o, Gemini, Flamingo Switch Transformer, PaLM 2
장점 더 풍부한 의미 이해 계산량 ↓, 성능 유지 ↑
구조적 특징 입력/출력이 다모달 내부 구조가 분산형 (게이팅 + Expert)

 

ㅁ 함께 쓰이는 경우도 있음

  • 최신 대형 모델에서는 멀티모달 + MoE를 함께 적용하는 경우도 있다.
    • 예: Google Gemini는 멀티모달 입력 처리에 MoE 구조를 활용해 효율성도 챙김
    • 예: Meta의 LLaMA 3도 멀티모달 확장과 MoE 연구를 병행
반응형
Comments