애플 실리콘(M1 ~ M5)으로 로컬 AI 돌리기

cookiepress · 2026년 6월 2일 · 14분 읽기 · 조회 432

맥에서 클라우드 없이, API 비용 없이, 데이터를 내 컴퓨터 밖으로 한 번도 내보내지 않고 LLM을 돌린다? 예전부터 가능은 했지만 “쓸 만한가?”는 별개의 문제였습니다. 그런데 2026년 봄, 세 가지 변화가 한꺼번에 일어나면서 애플 실리콘 로컬 AI가 진짜 실전용이 됐습니다. 이 글은 Marco Kotrotsos의 글(원문)과 거기 실린 두 개의 정리표를 바탕으로, 내 맥으로 어떤 모델을 어떻게 돌릴지 한국어로 풀어 쓴 글입니다.

“SuperPower”의 정체 — 무엇이 바뀌었나

원문 제목의 “Superpowers”는 괜히 만들어낸 수식어가 아닙니다. 2026년 1분기~2분기에 실제로 일어난 세 가지 구체적인 사건을 말하는데요. 아래에서 자세히 살펴보도록 하겠습니다.

1. Ollama 0.19 — 추론 엔진을 MLX로 갈아끼우다

가장 큰 변화. 2026년 3월 30일, 가장 널리 쓰이는 로컬 LLM 런타임인 Ollama가 애플 실리콘에서의 추론 엔진을 MLX로 교체했습니다. (리눅스·윈도우는 기존 llama.cpp 유지.)

MLX는 애플이 만든 머신러닝 프레임워크로, 맥의 통합 메모리(unified memory) 구조를 제대로 활용한다고 알려져 있습니다. CPU와 GPU가 같은 메모리 풀을 공유하기 때문에, PC에서 병목이 되는 데이터 복사 과정이 사라집니다.

성능 향상은 “최적화” 수준이 아니라 거의 2배입니다. Ollama 공식 벤치마크(M5 Max + Qwen3.5-35B-A3B 기준):

항목	Ollama 0.18 (기존)	Ollama 0.19 (MLX)	향상
Prefill (프롬프트 처리)	1,154 tok/s	1,810 tok/s	+57%
Decode (응답 생성)	58 tok/s	112 tok/s	+93%

특히 M5 계열 칩은 새로 추가된 GPU Neural Accelerator(행렬 연산 전용 하드웨어) 덕에 효과가 가장 큽니다. M1~M4도 통합 메모리 최적화 혜택은 받지만 Neural Accelerator 가속은 아직 없습니다. 즉, M5Max가 설치된 맥북이 MLX 성능을 가장 많이 뽑아낼 수 있는 기기라고 할 수 있겠습니다.

MacBook Pro on white surface — Photo by Tianyi Ma on Unsplash

Apple 맥북 프로 16 M5칩6,640,000원로켓배송최저가 보기

⚠️ 단, 이 MLX 경로는 현재 통합 메모리 32GB 이상 맥에서 권장됩니다. 그 미만이면 기존 llama.cpp로 폴백됩니다. 8/16GB 맥 사용자는 당장 큰 체감을 기대하기 어렵습니다. (정식 릴리스는 2026년 2분기 예정.)

2. Apple Foundation Models 프레임워크 — 앱이 믿고 쓸 수 있는 수준으로

2025년 macOS 26 / iOS 26과 함께 나온 Apple Foundation Models 프레임워크가 2026년 들어 성숙기에 접어들었습니다. 핵심은 Swift 개발자가 시스템 내장 LLM을 몇 줄로 호출할 수 있다는 것인데요.

@Generable 매크로 — Swift의 struct/enum에 붙이면 컴파일 타임에 스키마가 생성되고, 모델이 타입 안전한 구조화 출력을 그대로 채워줍니다. JSON 문자열을 손으로 파싱하던 시대의 종말입니다. (토큰 단위 제약 디코딩이라 “유효한 JSON이 나오길 기도”할 필요가 없습니다.)
툴 콜링(tool calling) 내장
멀티턴 세션 상태 유지 (LanguageModelSession)
모델은 약 3B 파라미터로 작지만 요약·분류·구조화 추출 같은 “앱이 실제로 하는 일”에 최적화
그리고 호출 비용이 0원. 시스템에 내장돼 무료입니다.

3. macMLX — OpenAI 호환 API로 도입 장벽을 없애다

원문에 따르면 2026년 4월 18일, macMLX가 SwiftUI 네이티브 LLM 런타임으로 출시됐습니다. 화려한 기능보다 중요한 건 OpenAI 호환 API를 제공한다는 점. 이미 OpenAI API로 짜둔 앱이라면 설정만 바꿔서 로컬 모델로 갈아탈 수 있다는 뜻입니다. 채택 장벽이 사라진 것입니다.

정리하면, 빨라졌고(Ollama+MLX), 공짜 구조화 출력이 생겼고(Foundation Models), 기존 코드를 그대로 쓸 길이 열렸습니다(OpenAI 호환). 이 셋이 합쳐져 로컬 AI가 “취미”에서 “실전 스택”으로 넘어왔습니다.

내 칩으로는 뭘 돌릴 수 있나 (M1 → M5 칩별 가이드)

이제부터 핵심입니다. 애플 실리콘은 세대별·등급별로 메모리와 성능 차이가 커서, 칩에 맞는 모델을 골라야 쾌적한데요. 원문의 첫 번째 표를 한국어로 재구성했습니다.

🟢 M1 / M1 Pro — 8~16GB

권장 스택: Apple Foundation Models를 기본으로 (하드웨어에 최적화된 3B 온디바이스 모델). 가끔 더 큰 작업이 필요하면 7~8B 모델(Q4)을 선택적으로 — 단 느리다.
음성 인식(Transcription): WhisperKit (base 또는 small)
현실적 모델 규모: 3B(네이티브) ~ 7–8B(Q4)

🔵 M2 / M2 Pro — 16~32GB

권장 스택: Qwen 3 8B(Q4) — 약 5GB 메모리를 상주시켜 무거운 추론용. 빠르고 구조화된 출력은 Apple Foundation Models로.
음성 인식: WhisperKit large-v3 turbo
현실적 모델 규모: 8B (쾌적)

🟣 M3 Pro / Max — 18~128GB

권장 스택: 일반 작업은 Qwen 3 8B(Q4), 더 날카로운 추론이 필요하면 Phi-4 14B(Q4, 약 9GB 상주). 구조화 출력은 Foundation Models.
음성 인식: WhisperKit large-v3 turbo
현실적 모델 규모: 8B ~ 14B (고품질)

🟠 M4 Pro / Max — 24~128GB

권장 스택: Llama 4 Scout(Q4) — 30B급 만능형. 코드 중심 작업엔 DeepSeek V3-Distill-32B(Q4)가 탁월. 구조화 출력은 Foundation Models.
음성 인식: WhisperKit large-v3 turbo
현실적 모델 규모: 30~32B (부드럽게 구동). 30B 모델 기준 약 60~90 tok/s 디코드.

🟢 M5 Max — 32~128GB

권장 스택: Qwen3.5-35B-A3B(Q4) — 현재 MLX 쇼케이스 모델, 약 112 tok/s 디코드(Ollama 0.19+). 128GB라면 70B급 모델(Q4)도 실용적 — 로컬에서 클라우드급 품질.
음성 인식: WhisperKit large-v3 turbo
현실적 모델 규모: 35B (매우 빠름) ~ 70B (로컬 플래그십). 35B 기준 약 112 tok/s 디코드.

한눈에: M1·M2는 8B가 상한선이자 스위트스폿, M3는 14B까지, M4는 30B급, M5 Max는 35~70B급까지. 메모리가 곧 기준입니다.

Apple 2025 맥스튜디오 M43,590,000원로켓배송최저가 보기

용도별 모델 선택 가이드

칩이 정해졌다면, 다음은 “무슨 일에 어떤 모델”이냐 입니다. 원문의 두 번째 표를 한국어로 옮기고 약간의 주석을 더했습니다.

용도	추천 모델	크기(Q4)	이유
구조화 출력·분류·요약	Apple Foundation Models	시스템 내장	무료, 네이티브 Swift, 이 작업들에 최적화
일반 추론 (기본 일꾼)	Qwen 3 8B	~5GB	품질·속도·크기의 최적 균형
작고 빠른 상시 백그라운드	Gemma 4 E2B	~2GB	M5 Max에서 158 tok/s, 최저 지연
8B로 부족한 더 날카로운 추론	Phi-4 14B	~9GB	MS의 추론 특화(reasoning-tuned) 모델
코드 생성	Qwen 2.5 Coder 14B 또는 DeepSeek V3-Distill 14B	~9–10GB	코드 특화 학습, SWE-bench류 강세
다국어 대형 작업	Llama 4 Scout	~14GB	적당한 크기에 강력한 다국어 커버리지
최고 품질 로컬(70B급)	Qwen3.5-35B-A3B	~22GB	현재 MLX 쇼케이스 모델

실전 조합 팁: 대부분의 작업은 “Foundation Models(구조화·요약) + Qwen 3 8B(일반 추론)” 2개 조합으로 충분합니다. 여기에 코드 작업이 많으면 코더 모델을, 백그라운드 상시 작업이 필요하면 Gemma 4 E2B를 얹는 식으로 늘려가면 됩니다.

어떻게 시작하나 (가장 쉬운 경로)

가장 간단한 진입로는 Ollama 입니다.

# 1. 설치 (Homebrew)
brew install ollama

# 2. 서비스 시작
ollama serve

# 3. 모델 받아서 바로 대화
ollama run qwen3:8b

Ollama 0.19+를 쓰면 애플 실리콘에서 자동으로 MLX 경로를 타므로, 32GB 이상 맥이라면 별도 설정 없이 속도 향상을 누릴 수 있습니다. GUI를 선호하면 LM Studio도 좋은 선택이고, 이쪽도 MLX 가속을 지원합니다.

음성 받아쓰기가 필요하면 WhisperKit(애플 실리콘 최적화 Whisper 구현)을 붙이면 됩니다. 위 표대로 M2 이상이면 large-v3 turbo가 쾌적하게 작동합니다.

개발자·자동화 관점에서 진짜 매력

이 글을 읽는 사람이 PHP·자바스크립트로 서비스를 만들고 AI 자동화에 관심이 있다면, 이번 변화의 의미는 분명합니다.

기존 코드를 거의 안 바꿔도 됩니다. Ollama도, macMLX도 OpenAI 호환 엔드포인트를 노출합니다. 코드에서 base_url만 로컬 주소(http://localhost:11434/v1 등)로 바꾸면, OpenAI SDK를 쓰던 자바스크립트/PHP 코드가 그대로 로컬 모델을 호출합니다.
비용이 0이고 데이터가 밖으로 안 나갑니다. 토큰 단가 걱정 없이 마음껏 호출할 수 있어서, “이메일 분류 → 요약 → 알림” 같은 자동화 파이프라인을 24시간 돌려도 추가 비용이 없습니다. 고객 데이터를 외부 API로 보낼 수 없는 상황에도 적합합니다.
구조화 출력이 안정적입니다. 자동화에서 가장 골치 아픈 게 “모델이 깨진 JSON을 뱉는” 문제인데, 로컬에서도 제약 디코딩으로 스키마를 강제할 수 있게 됐습니다. n8n·Node-RED 같은 워크플로 도구에 로컬 LLM을 노드로 끼워 넣기가 훨씬 수월해집니다.

알고 시작해야 할 한계

장밋빛 얘기만 하면 균형이 안 맞으니, 현실도 짚어보겠습니다.

메모리가 기준입니다. Ollama의 MLX 가속은 사실상 32GB 이상을 전제로 합니다. 애플의 최다 판매 모델은 여전히 8/16GB라, 이 혜택을 온전히 누리려면 고용량 맥이 필요합니다.
로컬 모델은 프런티어 모델이 아닙니다. 35B MoE 모델이 로컬에서 잘 돈다고 해도, 최신 클라우드 플래그십(GPT·Claude 등) 수준의 추론을 기대하긴 어렵습니다. “로컬로 충분한 작업”과 “클라우드가 필요한 작업”을 구분하는 안목이 중요합니다.
모델 포맷 차이. Ollama는 GGUF, MLX는 자체 포맷(.safetensors 기반, 보통 Hugging Face의 mlx-community)을 사용합니다. 다행히 인기 모델은 대부분 양쪽 빌드가 다 있습니다.

결국 현명한 전략은 하이브리드입니다. 프라이버시·비용·상시 자동화는 로컬로, 최고 난도 추론은 클라우드로 — 작업 성격에 맞춰 나눠 쓰는 것입니다.

마치며

애플 실리콘 로컬 AI는 오랫동안 “되긴 되는데 느리고 손이 많이 간다”는 평가에 머물렀습니다. 2026년 봄의 세 가지 변화 — Ollama의 MLX 전환, 성숙해진 Foundation Models, OpenAI 호환 런타임 — 이 동시에 도착하면서, 이제는 내 맥 한 대로 진지한 AI 워크로드를 돌리는 게 현실이 됐습니다.

시작은 단순합니다. 내 칩과 메모리를 확인하고, 위 표에서 맞는 모델을 골라 ollama run 한 줄을 치는 것. 거기서부터 나만의 프라이빗 AI 스택이 만들어집니다.

이 글은 Marco Kotrotsos의 “The Local AI Stack for Apple Silicon, Now With Superpowers”(Medium, 2026년 5월)와 해당 글의 정리표를 토대로 작성했습니다. 성능 수치·릴리스 정보는 2026년 6월 기준이며, 빠르게 변하는 분야이므로 도입 전 최신 버전과 벤치마크를 확인하시길 권합니다.