從新手到進階,涵蓋 10 種主流部署工具的完整教學。支援 NVIDIA GPU、Intel iGPU、AMD Ryzen AI 及 Apple Silicon,讓 AI 在本地運行——無需訂閱費、無需上傳數據。
根據你的顯示卡 VRAM 大小,找到最適合的模型
適用顯示卡:RTX 3060 / RTX 4060 / Apple M1/M2 (8GB)
快速回應,適合日常對話
ollama run llama-3.2-3b
中英文能力強,推薦首選
ollama run qwen2.5-7b
英文指令跟隨能力佳
ollama run mistral-7b
Google 出品,輕量高效
ollama run gemma-3-4b
推理能力強的蒸餾版
ollama run deepseek-r1-distill-7b
8GB VRAM 建議使用 Q4 量化版本,並將 Context Length 設為 4096 以內,避免 OOM(顯存不足)錯誤。
根據你的需求和技術背景選擇最合適的工具
一行指令或圖形介面,5 分鐘內跑起來
OpenAI 相容 API,直接替換 ChatGPT
Stable Diffusion、FLUX 等圖像模型
高並發、低延遲、多 GPU 支援
無需 NVIDIA GPU,利用內顯加速推理
點擊展開查看完整安裝步驟和指令
前往官網下載安裝包,或使用以下指令(Linux/macOS):
curl -fsSL https://ollama.com/install.sh | sh
Windows 用戶請直接下載 .exe 安裝包
一行指令即可下載並啟動模型:
ollama run qwen2.5:7b
# 列出已下載的模型 ollama list # 下載模型(不立即運行) ollama pull llama3.1:8b # 刪除模型 ollama rm mistral:7b # 啟動 API 服務(預設 port 11434) ollama serve
Ollama 提供 OpenAI 相容 API,可直接整合到應用程式:
curl http://localhost:11434/api/chat -d '{
"model": "qwen2.5:7b",
"messages": [
{ "role": "user", "content": "Hello!" }
]
}'可以!現代 Mini PC 有三種方式:① Intel iGPU(Core Ultra 125H/285H 等)可用 IPEX-LLM 加速,效果最好。② AMD Ryzen AI(AI 7 350/AI 9 HX 370 等)可用 ROCm + llama.cpp 加速。③ Apple Silicon(M1-M4)用 Ollama 原生 Metal 加速。純 CPU 也能跑,建議選 3B 以下小模型。詳見下方「Mini PC 內顯部署指南」。
使用量化版本(Q4_K_M 或 Q4_0)可將 VRAM 需求降低 50-75%。例如 7B 模型全精度需要 14GB,Q4 量化後只需約 4-5GB。Ollama 下載時選帶 ':q4' 標籤的版本即可。
可以使用 Hugging Face 鏡像站(如 hf-mirror.com)加速下載。在終端設置環境變數:export HF_ENDPOINT=https://hf-mirror.com,然後再執行下載指令。
在電腦上啟動 Ollama 服務(ollama serve),然後在手機上使用 Open WebUI 或 Enchanted(iOS)等 App 連接本地服務。確保手機和電腦在同一 WiFi 網絡下。
7B-14B 模型適合日常對話和簡單任務,品質接近 GPT-3.5。32B-70B 模型在許多任務上已接近 GPT-4。DeepSeek-R1 等推理模型在數學/程式碼任務上甚至超越 GPT-4o。
Ollama 的 /api/chat 端點支援傳入 messages 陣列保持對話歷史。LM Studio 的 Chat 介面自動保留歷史。如需持久化儲存,可使用 Open WebUI 等前端工具。
使用 IPEX-LLM Ollama Portable Zip(最簡單):1. 到 GitHub 下載 ipex-llm-ollama-portable-win.zip。2. 解壓後雙擊 start-ollama.bat。3. 在另一個視窗執行 ollama run qwen2.5:3b。首次啟動需等待 1-2 分鐘 SYCL 編譯,之後即可正常使用。8GB+ 共享 VRAM 可跑 3B 模型,16GB+ 可跑 7B)。
Windows 推薦用 AMD 預編譯版 llama.cpp:1. 從 AMD 官方倉庫下載預編譯二進位。 2. 下載 GGUF 模型。 3. 執行 llama-server.exe -m model.gguf -ngl 99(-ngl 99 是關鍵!將所有層卸載到 GPU)。Radeon 890M 有 16GB 共享 VRAM,可跑 7B Q4 模型,速度約 15-25 tokens/s。Linux 用戶可安裝 ROCm 後直接用 Ollama。
回到首頁瀏覽 111+ 個開源模型,找到最適合你的 AI