| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | ||||
| 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 11 | 12 | 13 | 14 | 15 | 16 | 17 |
| 18 | 19 | 20 | 21 | 22 | 23 | 24 |
| 25 | 26 | 27 | 28 | 29 | 30 | 31 |
- APM
- tucker의 go 언어 프로그래밍
- PETERICA
- CloudWatch
- golang
- Pinpoint
- 공부
- go
- AI
- CKA 기출문제
- Java
- Linux
- kotlin
- 코틀린 코루틴의 정석
- LLM
- 바이브코딩
- MySQL
- 정보처리기사 실기 기출문제
- 컨텍스트 엔지니어링
- CKA
- Kubernetes
- kotlin coroutine
- 티스토리챌린지
- 오블완
- minikube
- 기록으로 실력을 쌓자
- Spring
- AWS EKS
- SRE
- aws
- Today
- Total
피터의 개발이야기
[AI] Ollama launch + GLM-4.7-Flash로 로컬 Claude Code 실행하기 본문
ㅁ 들어가며
최근 로컬 LLM 환경이 빠르게 진화하고 있다.
이제는 단순히 모델을 띄우는 수준을 넘어, 실제 개발 워크플로우 안에 AI 에이전트를 자연스럽게 통합할 수 있는 단계에 들어왔다고 느낀다.
이번 글에서는 Claude Code with Anthropic API compatibility의 내용을 보고, Ollama의 신규 기능인 ollama launch와 GLM-4.7-Flash 모델을 활용해,
Claude Code를 완전히 로컬 환경에서 실행해 본 과정을 정리해 보려 한다.
목표는 단순하다.
“클라우드 API 없이, 내 머신 위에서 Claude Code를 돌린다.”
ㅁ Ollama launch가 바꾼 것
ㅇ 기존에는 Claude Code를 로컬 모델에 연결하려면 다음과 같은 준비 작업이 필요했다.
- 환경 변수 설정
- API 엔드포인트 수동 지정
- 모델별 파라미터 조정
ㅇ 하지만 ollama launch는 이 과정을 거의 자동화한다.
launch 명령 하나로:
- Claude Code 설치
- Ollama API 연결
- 모델 선택
- 기본 설정 구성
까지 만들어진다.
개인적으로는 “로컬 LLM + 에이전트 도구” 진입 장벽을 크게 낮춘 변화라고 느꼈다.
ㅁ GLM-4.7-Flash를 선택한 이유
ㅇ 여러 로컬 모델 중 GLM-4.7-Flash를 선택한 이유는 명확하다.
- MoE 구조 기반으로 상대적으로 가벼운 실행
- 코드 이해와 생성 품질이 준수함
- Ollama에서 공식적으로 코딩용 추천 모델로 포함
ㅇ 대형 모델 대비 VRAM 부담이 낮으면서도,
Claude Code 같은 코딩 에이전트를 붙이기에 현실적인 균형점을 제공한다.
ㅁ 전체 구성 흐름
내 로컬 환경의 구조는 다음과 같다.
Ollama
→ GLM-4.7-Flash
→ Anthropic Messages API 호환 레이어
→ Claude Code
→ 로컬 프로젝트 디렉터리
Claude Code는
“Anthropic API를 호출한다”고 생각하지만,
실제 요청은 localhost의 Ollama로 전달되고,
응답은 GLM-4.7-Flash가 처리하는 구조다.
ㅇ Claude Code 입장에서는 원격 LLM이 아니라 로컬 모델을 쓰는 셈이다.
ㅁ 실제 실행 과정 요약

ㅇ Ollama 설치 및 업데이트
ㅇ ollama 공식 문서에서는 다음 모델을 추천하고 있다.
- qwen3-coder
- glm-4.7
- gpt-oss:20b
- gpt-oss:120b


ㅇ GLM-4.7-Flash 모델 pull

ㅇ ollama launch claude --config
실행하면 설치된 모델을 선택할 수 있다.

ㅇ Claude Code 시작
환경 변수나 설정 파일을 직접 만질 필요가 거의 없었다.
긴 컨텍스트를 쓰는 경우 VRAM 사용량이 급격히 늘어나므로,
로컬 GPU 사양에 맞춰 context size는 현실적으로 조절하는 편이 좋다.
GPU 여유가 없을 경우 cloud 모델로 전환하는 것도 하나의 선택지다.

ㅇ 나의 맥북은 M3 Max 32GB여서 128K로 컨텍스트 설정을 하였다.

ㅇ ollama ps 명령어로 프로세스 확인시 사용량을 확인할 수 있다.
ㅁ 써보면서 느낀 점
가장 인상 깊었던 부분은 “로컬에서도 충분히 실용적인 개발 에이전트 환경이 만들어진다”는 점이다.
- 코드 탐색
- 파일 수정
- 간단한 리팩터링
- 구조 설명 요청
같은 작업은 이미 로컬 모델 수준에서도 무리 없이 가능하다.
이제 AI 코딩 도구는
“외부 API를 호출하는 서비스”가 아니라
“내 개발 환경의 한 구성 요소”로 다뤄도 되는 단계에 와 있다고 느꼈다.
ㅁ ollama launch

ㅇollmam lanch를 통해 opencode, clawdbot, codex, droid를 사용할 수 있다.
ㅇ 자세한 내용은 인도 유튜브 동영상을 참조.
ㅁ 마무리
이제 AI 개발 환경은
“어떤 모델을 쓰느냐”보다
“어떻게 운영 가능한 구조로 묶느냐”가 더 중요해지고 있다.
Ollama launch는 그 전환점을 보여주는 좋은 사례라고 생각한다.
로컬 LLM 기반 개발에 관심 있다면, 한 번 직접 구성해 보기를 권한다.
ㅁ 함께 보면 좋은 사이트
ㅇ Claude Code with Anthropic API compatibility
'AI > AI코딩 | 실습' 카테고리의 다른 글
| [AI] IntentFlow - 기술 요소 목록 (0) | 2025.11.18 |
|---|---|
| [AI] IntentFlow 프로젝트 회고 및 소개 (0) | 2025.11.12 |
| [AI] IntentFlow 개발 완료 회고 (0) | 2025.10.26 |
| [AI] 한시간 안에 V0를 이용한 웹페이지 만들기(feat. 헤커톤) (0) | 2025.09.30 |
| [AI] Cursor에서 토큰 사용량을 획기적으로 줄이는 실전 방법 (0) | 2025.09.11 |
