本地部署 · 完全掌控 · 數據不上雲

在自己的電腦上
運行開源 AI 模型

從新手到進階,涵蓋 10 種主流部署工具的完整教學。支援 NVIDIA GPU、Intel iGPU、AMD Ryzen AI 及 Apple Silicon,讓 AI 在本地運行——無需訂閱費、無需上傳數據。

10 種部署工具
5 個 VRAM 等級
20+ 推薦模型
支援 Windows / macOS / Linux

按 GPU VRAM 選擇模型

根據你的顯示卡 VRAM 大小,找到最適合的模型

入門級(4–8 GB)

適用顯示卡:RTX 3060 / RTX 4060 / Apple M1/M2 (8GB)

5 個推薦模型
Llama 3.2 3B3B

快速回應,適合日常對話

ollama run llama-3.2-3b
Qwen2.5 7B7B

中英文能力強,推薦首選

ollama run qwen2.5-7b
Mistral 7B7B

英文指令跟隨能力佳

ollama run mistral-7b
Gemma 3 4B4B

Google 出品,輕量高效

ollama run gemma-3-4b
DeepSeek-R1 Distill 7B7B

推理能力強的蒸餾版

ollama run deepseek-r1-distill-7b

8GB VRAM 建議使用 Q4 量化版本,並將 Context Length 設為 4096 以內,避免 OOM(顯存不足)錯誤。

如何選擇部署工具?

根據你的需求和技術背景選擇最合適的工具

🚀

我是新手,想快速試用

一行指令或圖形介面,5 分鐘內跑起來

💻

我是開發者,需要 API

OpenAI 相容 API,直接替換 ChatGPT

🎨

我要跑圖像生成模型

Stable Diffusion、FLUX 等圖像模型

我需要生產環境高性能

高並發、低延遲、多 GPU 支援

🖥️

我用 Mini PC / 內顯(Intel/AMD)

無需 NVIDIA GPU,利用內顯加速推理

各工具詳細安裝教學

點擊展開查看完整安裝步驟和指令

1. 安裝 Ollama

前往官網下載安裝包,或使用以下指令(Linux/macOS):

curl -fsSL https://ollama.com/install.sh | sh

Windows 用戶請直接下載 .exe 安裝包

2. 下載並運行模型

一行指令即可下載並啟動模型:

ollama run qwen2.5:7b

3. 其他常用指令

# 列出已下載的模型
ollama list

# 下載模型(不立即運行)
ollama pull llama3.1:8b

# 刪除模型
ollama rm mistral:7b

# 啟動 API 服務(預設 port 11434)
ollama serve

4. 使用 REST API

Ollama 提供 OpenAI 相容 API,可直接整合到應用程式:

curl http://localhost:11434/api/chat -d '{
  "model": "qwen2.5:7b",
  "messages": [
    { "role": "user", "content": "Hello!" }
  ]
}'

使用技巧

  • 模型名稱格式:<名稱>:<標籤>,如 qwen2.5:7b、llama3.1:70b-q4
  • 量化版本(如 :q4_0)可大幅降低 VRAM 需求
  • 支援 OpenAI 相容 API,可直接替換 ChatGPT API
  • macOS 上使用 Metal GPU 加速,Windows 使用 CUDA

常見問題

Q: 沒有 NVIDIA GPU 可以跑嗎?

可以!現代 Mini PC 有三種方式:① Intel iGPU(Core Ultra 125H/285H 等)可用 IPEX-LLM 加速,效果最好。② AMD Ryzen AI(AI 7 350/AI 9 HX 370 等)可用 ROCm + llama.cpp 加速。③ Apple Silicon(M1-M4)用 Ollama 原生 Metal 加速。純 CPU 也能跑,建議選 3B 以下小模型。詳見下方「Mini PC 內顯部署指南」。

Q: VRAM 不夠怎麼辦?

使用量化版本(Q4_K_M 或 Q4_0)可將 VRAM 需求降低 50-75%。例如 7B 模型全精度需要 14GB,Q4 量化後只需約 4-5GB。Ollama 下載時選帶 ':q4' 標籤的版本即可。

Q: 模型下載太慢怎麼辦?

可以使用 Hugging Face 鏡像站(如 hf-mirror.com)加速下載。在終端設置環境變數:export HF_ENDPOINT=https://hf-mirror.com,然後再執行下載指令。

Q: 如何讓模型在手機上使用?

在電腦上啟動 Ollama 服務(ollama serve),然後在手機上使用 Open WebUI 或 Enchanted(iOS)等 App 連接本地服務。確保手機和電腦在同一 WiFi 網絡下。

Q: 本地模型和 ChatGPT 差距大嗎?

7B-14B 模型適合日常對話和簡單任務,品質接近 GPT-3.5。32B-70B 模型在許多任務上已接近 GPT-4。DeepSeek-R1 等推理模型在數學/程式碼任務上甚至超越 GPT-4o。

Q: 如何讓模型記住對話歷史?

Ollama 的 /api/chat 端點支援傳入 messages 陣列保持對話歷史。LM Studio 的 Chat 介面自動保留歷史。如需持久化儲存,可使用 Open WebUI 等前端工具。

Q: Intel Core Ultra 125H/285H 怎麼跑 AI?

使用 IPEX-LLM Ollama Portable Zip(最簡單):1. 到 GitHub 下載 ipex-llm-ollama-portable-win.zip。2. 解壓後雙擊 start-ollama.bat。3. 在另一個視窗執行 ollama run qwen2.5:3b。首次啟動需等待 1-2 分鐘 SYCL 編譯,之後即可正常使用。8GB+ 共享 VRAM 可跑 3B 模型,16GB+ 可跑 7B)。

Q: AMD Ryzen AI 7 350 / AI 9 HX 370 怎麼跑 AI?

Windows 推薦用 AMD 預編譯版 llama.cpp:1. 從 AMD 官方倉庫下載預編譯二進位。 2. 下載 GGUF 模型。 3. 執行 llama-server.exe -m model.gguf -ngl 99(-ngl 99 是關鍵!將所有層卸載到 GPU)。Radeon 890M 有 16GB 共享 VRAM,可跑 7B Q4 模型,速度約 15-25 tokens/s。Linux 用戶可安裝 ROCm 後直接用 Ollama。

準備好了嗎?

回到首頁瀏覽 111+ 個開源模型,找到最適合你的 AI