관리 메뉴

피터의 개발이야기

DeepSeek: AI 산업의 새로운 패러다임을 제시하는 혁신적인 중국 스타트업 본문

AI

DeepSeek: AI 산업의 새로운 패러다임을 제시하는 혁신적인 중국 스타트업

기록하는 백앤드개발자 2025. 1. 30. 11:24
반응형

ㅁ 들어가며

  최근 글로벌 AI 시장에 충격파를 던진 중국의 스타트업 DeepSeek이 화제이다. 오픈소스 기반의 초대규모 언어모델(LLM)로 미국의 제재를 뚫고 경쟁사 대비 95% 낮은 비용으로 ChatGPT 수준의 성능을 구현하며, 출시 17일 만에 iOS 앱스토어 1위를 차지하였다.

 2023년 7월 17일에 설립된 이 회사는 짧은 기간 동안 놀라운 성과를 보여주며 AI 산업의 새로운 패러다임을 제시하고 있다. 이번 글에서는 DeepSeek의 혁신적인 기술과 접근 방식, 그리고 이 회사가 AI 산업에 미치는 영향에 대해 정리해 보았다.

 

ㅁ DeepSeek: 이름에 담긴 의미

  DeepSeek라는 이름은 'Deep'(깊은, 심층)'Seek'(찾다, 추구하다)의 합성어로, "깊이 있게 찾다" 또는 "심층적으로 추구하다"라는 의미를 담고 있다. 이 이름은 회사의 핵심 가치인 인공지능 기술의 심층적인 연구와 발전을 추구한다는 의미를 잘 표현하고 있다. 또한 '깊은 학습'(Deep Learning)과 '탐구'(Seeking)를 결합한 단어 조합으로, DeepSeek의 기술적 지향점과 기업 정체성을 효과적으로 나타내고 있다.

  중국 기업임에도 불구하고 영어 이름을 사용했다는 점에서, DeepSeek가 글로벌 시장을 겨냥하고 있다는 것을 알 수 있다. 이는 국제적인 기업으로 성장하고자 하는 그들의 포부를 잘 보여주고 있다.

 

ㅁ DeepSeek 탄생의 비화: 헤지펀드에서 시작된 AI 혁명

ㅇ 창립 배경

 2023년 5월 항저우에서 AI 헤지펀드 '하이플라이어(High-Flyer)'의 공동창업자 리앙 웬펑이 설립
ㅇ 초기 자본

 10,000~50,000개의 NVIDIA A100 GPU 보유(미국 제재 전략적 대비)
ㅇ 핵심 전략
  - 오픈소스 생태계 구축으로 기술 확산 가속화
  - 학계 중심의 젊은 인재 채용(신입 비율 80% 이상)
  - 컴퓨터과학 외 분야 전문가 영입(시 창작, 수학 올림피아드 수상자 등)

"인간 지능의 본질은 언어에 있으며, AGI(인공일반지능)는 대규모 언어모델에서 탄생할 것" 
- 리앙 웬펑 CEO

 

ㅁ DeepSeek의 혁신: 효율성에 기반한 새로운 패러다임

  DeepSeek이 AI 업계에 가져온 가장 큰 변화는 바로 '효율성'에 기반한 새로운 패러다임이다. 이전까지 AI 산업의 주된 패러다임은 '더 크고 더 많이'였다. 즉, 더 큰 모델을 만들고, 더 많은 데이터를 학습시키는 것이 성능 향상의 핵심이라고 여겨졌다. 하지만 DeepSeek은 이러한 관념을 뒤집고, '더 효율적이고 더 스마트하게'라는 새로운 패러다임을 제시했다. 

 

알고리즘의 효율성

  DeepSeek은 '증류(distillation)'라는 방법을 사용해 큰 모델의 지식을 작은 모델로 효과적으로 전달하는 데 성공했다. 이는 마치 오랜 시간 공부한 선생님이 학생에게 효율적으로 지식을 전달하는 것과 유사하다. 이를 통해 DeepSeek은 상대적으로 작은 모델로도 큰 모델에 버금가는 성능을 달성할 수 있었다.

 

리소스 활용의 효율성

  최신 GPU를 사용할 수 없는 상황에서도, DeepSeek은 기존 하드웨어의 성능을 최대한 끌어올리는 방법을 찾아냈다. 이는 마치 중고차를 새 차처럼 튜닝하는 것과 비슷한데, 그 결과는 최신 모델 못지않았다. 이러한 접근 방식은 AI 개발에 필요한 하드웨어 비용을 크게 줄일 수 있게 해주었다.

 

개발 프로세스의 효율성

  DeepSeek은 오픈소스 전략을 채택했다. 이는 전 세계 개발자들의 지혜를 모을 수 있게 해주며, 빠른 속도로 모델을 개선하고 발전시킬 수 있게 해준다. 실제로 DeepSeek의 코드를 분석한 Meta의 엔지니어들은 자사의 Llama 모델에도 이 기술을 적용하는 것을 검토하고 있다.

 

ㅁ DeepSeek의 주요 모델들

DeepSeek-7B

  DeepSeek-7B는 DeepSeek의 주력 모델 중 하나로, 자연어 처리, 코딩, 복잡한 문제 해결 작업에서 주목할 만한 성능을 보여준다. 특히 이 모델은 미국의 유사한 모델들에 비해 현저히 낮은 비용으로 운영될 수 있어, 비용 효율성 측면에서 큰 장점을 가지고 있다.

 

DeepSeek V3

DeepSeek V3는 중국 역대 최대 규모의 오픈소스 AI 모델이다. 총 6710억 개의 매개변수를 가지고 있으며, MoE(Mixture-of-Experts, 전문가 혼합) 기법을 활용하여 높은 성능과 효율성을 동시에 달성했다.

 

DeepSeek-Coder-V2

  DeepSeek-Coder-V2는 코딩 분야에 특화된 모델로, 최고의 성능과 비용 경쟁력으로 개발자들의 주목을 받고 있다. 이 모델은 DeepSeek의 혁신적인 MoE 기법과 MLA(Multi-Head Latent Attention) 구조를 통해 높은 성능과 효율을 동시에 달성했다.

 

ㅁ 혁신적 아키텍처 (MoE 구조)

  DeepSeek의 가장 강력한 모델들의 기반이 되는 것은 바로 DeepSeekMoE 아키텍처이다. 이 아키텍처는 기존 거대언어모델의 한계를 극복하기 위해 설계되었다. DeepSeekMoE의 핵심은 '전문가 혼합'(Mixture of Experts) 기법이다. 이 기법은 각각의 입력에 가장 관련성이 높은 전문가 모델을 선택하여 여러 전문가 모델 간에 작업을 분할한다. 이를 통해 모델이 데이터의 다양한 측면을 좀 더 효과적으로 처리할 수 있게 되어, 대규모 작업의 효율성과 확장성이 크게 개선된다.

 

특징 DeepSeekV3 GPT-4
총 파라미터 6710억 1.8조
활성화 파라미터 370억(5.5%) 전체 사용
토큰 처리량 128K 32K-64K
학습 비용 $0.001/1k tokens $0.03/1k tokens

 

  이러한 접근 방식은 모델의 크기를 늘리지 않으면서도 성능을 크게 향상시킬 수 있게 해주며, 동시에 계산 비용을 줄일 수 있게 해준다. 이는 DeepSeek이 추구하는 '효율성' 패러다임을 잘 보여주는 예라고 할 수 있다.

 

 벤치마크 성능

평가 항목 DeepSeek GPT-4 Claude 3.5
HumanEval(코딩) 73.78% 67% 71.2%
GSM8K(수학) 84.1% 80.2% 82.4%
DROP(추론) 91.6% 83.7% 88.3%

 

ㅁ DeepSeek R1: 혁신적인 API 서비스

  DeepSeek은 자사의 기술을 API 형태로도 제공하고 있다. 그 중 DeepSeek R1은 특히 주목할 만한 서비스이다. DeepSeek R1은 성능 면에서 OpenAI의 o1과 경쟁하는 최첨단 추론 모델로, 개발자에게 오픈 소스 라이선스의 유연성을 제공한다.

  DeepSeek R1의 두드러진 특징 중 하나는 투명하고 경쟁력 있는 가격 모델이다. 이 API는 반복적인 쿼리에 대한 비용을 크게 줄이는 캐싱 메커니즘을 통합하고 있어, 사용자들의 비용 부담을 크게 줄여준다.

 

ㅁ DeepSeek R1의 주요 특징

학습 후 단계의 대규모 RL

 강화 학습 기술을 학습 후 단계에 적용하여 모델의 추론 및 문제 해결 능력을 향상시진다.

 

최소한의 레이블이 지정된 데이터

 제한적인 지도 미세 조정을 통해서도 상당한 성능 향상을 달성한다.

 

MIT 라이선스에 따른 오픈 소스

 개발자는 제한 없이 모델을 개선, 수정하고 상용화할 수 있다.

 

ㅇ OpenAI-o1과 동등한 성능

 수학, 프로그래밍, 논리적 추론과 같은 작업에서 OpenAI의 독점 모델을 충족하거나 능가한다.

특히 DeepSeek R1은 복잡한 문제 해결 능력에서 뛰어난 성과를 보여주고 있다. 예를 들어, DeepSeek R1은 약 75초 동안 생각한 후 OpenAI의 o1 블로그 게시물에 있는 암호문 문제를 성공적으로 풀어냈다. 이는 DeepSeek R1의 뛰어난 추론 능력을 잘 보여주는 사례이다.

 

ㅁ DeepSeek의 의미

기술 민주화: 고성능 AI의 대중화 가능성 입증
자원 최적화: 하드웨어 제약 극복을 위한 창의적 접근법
생태계 전략: 오픈소스를 통한 글로벌 개발자 커뮤니티 구축

 

ㅁ 마무리

  DeepSeek은 단순한 중국의 ChatGPT 클론이 아닌, 오픈소스 기반의 효율성 혁명을 보여주고 있다. 이제 AI 경쟁은 단순한 기술 스펙 경쟁을 넘어, 시스템 효율성과 생태계 영향력을 아우르는 종합전으로 진화하고 있다. DeepSeek의 다음 행보가 주목되는 이유이다.

 

ㅁ 함께 보면 좋은 사이트

DeepSeek의 충격 AI 산업의 새로운 패러다임

DeepSeek R1 리뷰: API 가격 및 DeepSeek R1 API 사용 방법

 wikipedia - DeepSeek

 https://youtu.be/pmg46mdfW04?si=zdjAJu0at_U5dlkO

 

반응형
Comments