Skip to content

本地模型配置指南

在您的机器上完全运行 AI 模型,以获得隐私、节省成本和离线能力。

为什么使用本地 LLM?

优势

优势描述
隐私代码永不离开您的设备
零 API 成本无按令牌收费
离线无需互联网连接即可工作
低延迟无网络往返延迟
无速率限制随意使用

权衡

考虑因素影响
模型质量低于顶级云模型
硬件要求需要足够的 RAM/CPU
设置复杂度需要初始配置

支持的模型

Qwen2.5-Coder(推荐)

专为代码生成设计:

模型大小所需 RAM最适合
qwen2.5-coder:0.5b0.5B2GB快速任务、测试
qwen2.5-coder:1.5b1.5B4GB速度/质量平衡
qwen2.5-coder:3b3B6GB大多数用例推荐
qwen2.5-coder:7b7B10GB最佳质量

其他兼容模型

  • llama3.2 - 通用
  • codellama - 代码专用
  • deepseek-coder - 强大的编码能力

安装

步骤 1:安装 Ollama

macOS

bash
brew install ollama

Linux

bash
curl -fsSL https://ollama.com/install.sh | sh

Windows

ollama.com 下载

步骤 2:验证安装

bash
ollama --version
# 应该输出:ollama version is 0.1.x

步骤 3:拉取模型

bash
# 推荐用于编码
ollama pull qwen2.5-coder:3b

# 用于通用
ollama pull llama3.2

# 列出已安装的模型
ollama list

存储空间

模型通常每个 1-4GB。仅安装您需要的。

步骤 4:启动 Ollama

bash
# macOS(后台服务自动启动)
brew services start ollama

# Linux
systemctl start ollama

# 手动启动(任何平台)
ollama serve

配置 IfAI

基本设置

  1. 打开 IfAI
  2. 打开设置:Cmd+,(Mac)或 Ctrl+,(Windows/Linux)
  3. 导航到 AI 提供商
  4. 从提供商下拉列表中选择 Ollama
  5. 模型列表应自动填充

手动配置

如果模型未自动出现:

  1. 设置 Ollama URLhttp://localhost:11434
  2. 点击 测试连接
  3. 从下拉列表中选择模型

模型选择

根据您的需求选择:

推荐:qwen2.5-coder:3b
- 速度和质量的良好平衡
- 在 8GB RAM 机器上工作
- 支持 35+ 种编程语言

更快响应:qwen2.5-coder:0.5b
- 最适合快速任务
- 最小资源使用

最佳质量:qwen2.5-coder:7b
- 更高质量的响应
- 需要 16GB+ RAM

配置选项

模型设置

设置描述推荐
Temperature创造力 (0-2)代码用 0.2,聊天用 0.7
Top P核采样0.9
最大令牌响应长度2048
上下文窗口输入内存4096(取决于模型)

性能设置

设置描述影响
GPU 层GPU 上的层(相对于 CPU)如果有 GPU 则更快
线程数CPU 线程匹配您的 CPU 核心数
批大小一次处理的令牌数更高 = 更快,更多 RAM

性能调优

按模型的硬件要求

模型最小 RAM推荐 RAMGPU
0.5B2GB4GB不需要
1.5B3GB6GB可选
3B5GB8GB有帮助
7B8GB16GB推荐

优化技巧

减少内存使用

bash
# 使用量化模型(Ollama 中已默认)
# 降低上下文窗口
# 关闭其他应用程序

提高速度

bash
# 启用 GPU 加速
# 使用更小的模型
# 减少上下文窗口
# 降低批大小

Apple Silicon

Mac M1/M2/M3 用户获得最佳性能:

bash
# Metal 加速是自动的
# 3B 模型在 M2 上以 ~50 令牌/秒运行

NVIDIA GPU

带有 NVIDIA GPU 的 Windows/Linux:

bash
# 安装 CUDA 工具包
# 在 Ollama 设置中设置 GPU 层
# 预期 3-5 倍加速

混合模式

结合本地和云端 AI 以获得最佳结果:

配置

  1. 设置主要提供商:Ollama(本地)
  2. 设置后备提供商:OpenAI/Anthropic
  3. 启用自动后备

工作原理

请求 → 尝试本地模型
         ├─ 成功 → 返回响应
         └─ 错误/失败 → 后备到云端 API

使用场景

  • 本地:快速问题、简单代码生成
  • 云端:复杂推理、大上下文、最佳质量

测试您的设置

基本测试

1. 打开 AI 聊天 (Cmd+K)
2. 输入:"你好,能听到我吗?"
3. 应该收到响应

代码生成测试

1. 打开代码文件
2. 选择一个函数
3. 询问:"解释这个函数的作用"
4. 应该提供准确的解释

性能测试

# 检查生成速度
ollama run qwen2.5-coder:3b "数到 100"

# 监控 RAM 使用
# macOS:活动监视器
# Windows:任务管理器
# Linux:htop

故障排查

"无法连接到 Ollama"

解决方案

  1. 验证 Ollama 正在运行:ollama list
  2. 检查 IfAI 设置中的 URL
  3. 手动测试:curl http://localhost:11434/api/tags
  4. 重启 Ollama 服务

"未找到模型"

解决方案

  1. 拉取模型:ollama pull qwen2.5-coder:3b
  2. 检查已安装的模型:ollama list
  3. 拉取后重启 IfAI

"内存不足"

解决方案

  1. 使用更小的模型
  2. 减少上下文窗口
  3. 关闭其他应用程序
  4. 添加更多 RAM

"响应缓慢"

解决方案

  1. 使用更小的模型
  2. 启用 GPU 加速
  3. 减少上下文窗口
  4. 检查系统资源

"响应质量差"

解决方案

  1. 尝试更大的模型
  2. 调整温度设置
  3. 使用更具体的提示词
  4. 考虑与云端 API 的混合模式

高级配置

自定义模型

使用任何 GGUF 格式的模型:

bash
# 下载 GGUF 模型
# 创建 Modelfile
echo "FROM ./model.gguf" > Modelfile

# 构建并运行
ollama create mymodel -f Modelfile
ollama run mymodel

仅 API 模式

将 Ollama 用作 API 服务器:

bash
# 启动 Ollama 服务器
ollama serve

# 从其他机器访问
# 使用 OLLAMA_HOST=0.0.0.0 进行网络访问

下一步

基于 MIT 许可发布