本地模型配置指南

在您的机器上完全运行 AI 模型，以获得隐私、节省成本和离线能力。

为什么使用本地 LLM？

优势

优势	描述
隐私	代码永不离开您的设备
零 API 成本	无按令牌收费
离线	无需互联网连接即可工作
低延迟	无网络往返延迟
无速率限制	随意使用

权衡

考虑因素	影响
模型质量	低于顶级云模型
硬件要求	需要足够的 RAM/CPU
设置复杂度	需要初始配置

支持的模型

Qwen2.5-Coder（推荐）

专为代码生成设计：

模型	大小	所需 RAM	最适合
`qwen2.5-coder:0.5b`	0.5B	2GB	快速任务、测试
`qwen2.5-coder:1.5b`	1.5B	4GB	速度/质量平衡
`qwen2.5-coder:3b`	3B	6GB	大多数用例推荐
`qwen2.5-coder:7b`	7B	10GB	最佳质量

其他兼容模型

llama3.2 - 通用
codellama - 代码专用
deepseek-coder - 强大的编码能力

安装

步骤 1：安装 Ollama

macOS

bash

brew install ollama

Linux

bash

curl -fsSL https://ollama.com/install.sh | sh

Windows

从 ollama.com 下载

步骤 2：验证安装

bash

ollama --version
# 应该输出：ollama version is 0.1.x

步骤 3：拉取模型

bash

# 推荐用于编码
ollama pull qwen2.5-coder:3b

# 用于通用
ollama pull llama3.2

# 列出已安装的模型
ollama list

存储空间

模型通常每个 1-4GB。仅安装您需要的。

步骤 4：启动 Ollama

bash

# macOS（后台服务自动启动）
brew services start ollama

# Linux
systemctl start ollama

# 手动启动（任何平台）
ollama serve

配置 IfAI

基本设置

打开 IfAI
打开设置：Cmd+,（Mac）或 Ctrl+,（Windows/Linux）
导航到 AI 提供商
从提供商下拉列表中选择 Ollama
模型列表应自动填充

手动配置

如果模型未自动出现：

设置 Ollama URL：http://localhost:11434
点击 测试连接
从下拉列表中选择模型

模型选择

根据您的需求选择：

推荐：qwen2.5-coder:3b
- 速度和质量的良好平衡
- 在 8GB RAM 机器上工作
- 支持 35+ 种编程语言

更快响应：qwen2.5-coder:0.5b
- 最适合快速任务
- 最小资源使用

最佳质量：qwen2.5-coder:7b
- 更高质量的响应
- 需要 16GB+ RAM

配置选项

模型设置

设置	描述	推荐
Temperature	创造力 (0-2)	代码用 0.2，聊天用 0.7
Top P	核采样	0.9
最大令牌	响应长度	2048
上下文窗口	输入内存	4096（取决于模型）

性能设置

设置	描述	影响
GPU 层	GPU 上的层（相对于 CPU）	如果有 GPU 则更快
线程数	CPU 线程	匹配您的 CPU 核心数
批大小	一次处理的令牌数	更高 = 更快，更多 RAM

性能调优

按模型的硬件要求

模型	最小 RAM	推荐 RAM	GPU
0.5B	2GB	4GB	不需要
1.5B	3GB	6GB	可选
3B	5GB	8GB	有帮助
7B	8GB	16GB	推荐

优化技巧

减少内存使用

bash

# 使用量化模型（Ollama 中已默认）
# 降低上下文窗口
# 关闭其他应用程序

提高速度

bash

# 启用 GPU 加速
# 使用更小的模型
# 减少上下文窗口
# 降低批大小

Apple Silicon

Mac M1/M2/M3 用户获得最佳性能：

bash

# Metal 加速是自动的
# 3B 模型在 M2 上以 ~50 令牌/秒运行

NVIDIA GPU

带有 NVIDIA GPU 的 Windows/Linux：

bash

# 安装 CUDA 工具包
# 在 Ollama 设置中设置 GPU 层
# 预期 3-5 倍加速

混合模式

结合本地和云端 AI 以获得最佳结果：

配置

设置主要提供商：Ollama（本地）
设置后备提供商：OpenAI/Anthropic
启用自动后备

工作原理

请求 → 尝试本地模型
         ├─ 成功 → 返回响应
         └─ 错误/失败 → 后备到云端 API

使用场景

本地：快速问题、简单代码生成
云端：复杂推理、大上下文、最佳质量

测试您的设置

基本测试

1. 打开 AI 聊天 (Cmd+K)
2. 输入："你好，能听到我吗？"
3. 应该收到响应

代码生成测试

1. 打开代码文件
2. 选择一个函数
3. 询问："解释这个函数的作用"
4. 应该提供准确的解释

性能测试

# 检查生成速度
ollama run qwen2.5-coder:3b "数到 100"

# 监控 RAM 使用
# macOS：活动监视器
# Windows：任务管理器
# Linux：htop

故障排查

"无法连接到 Ollama"

解决方案：

验证 Ollama 正在运行：ollama list
检查 IfAI 设置中的 URL
手动测试：curl http://localhost:11434/api/tags
重启 Ollama 服务

"未找到模型"

解决方案：

拉取模型：ollama pull qwen2.5-coder:3b
检查已安装的模型：ollama list
拉取后重启 IfAI

"内存不足"

解决方案：

使用更小的模型
减少上下文窗口
关闭其他应用程序
添加更多 RAM

"响应缓慢"

解决方案：

使用更小的模型
启用 GPU 加速
减少上下文窗口
检查系统资源

"响应质量差"

解决方案：

尝试更大的模型
调整温度设置
使用更具体的提示词
考虑与云端 API 的混合模式

高级配置

自定义模型

使用任何 GGUF 格式的模型：

bash

# 下载 GGUF 模型
# 创建 Modelfile
echo "FROM ./model.gguf" > Modelfile

# 构建并运行
ollama create mymodel -f Modelfile
ollama run mymodel

仅 API 模式

将 Ollama 用作 API 服务器：

bash

# 启动 Ollama 服务器
ollama serve

# 从其他机器访问
# 使用 OLLAMA_HOST=0.0.0.0 进行网络访问

下一步

AI 聊天指南 - 使用本地模型的 AI
设置参考 - 高级配置
基础使用 - 核心功能和工作流程

本地模型配置指南 ​

为什么使用本地 LLM？ ​

优势 ​

权衡 ​

支持的模型 ​

Qwen2.5-Coder（推荐） ​

其他兼容模型 ​

安装 ​

步骤 1：安装 Ollama ​

macOS ​

Linux ​

Windows ​

步骤 2：验证安装 ​

步骤 3：拉取模型 ​

步骤 4：启动 Ollama ​

配置 IfAI ​

基本设置 ​

手动配置 ​

模型选择 ​

配置选项 ​

模型设置 ​

性能设置 ​

性能调优 ​

按模型的硬件要求 ​

优化技巧 ​

减少内存使用 ​

提高速度 ​

Apple Silicon ​

NVIDIA GPU ​

混合模式 ​

配置 ​

工作原理 ​

使用场景 ​

测试您的设置 ​

基本测试 ​

代码生成测试 ​

性能测试 ​

故障排查 ​

"无法连接到 Ollama" ​

"未找到模型" ​

"内存不足" ​

"响应缓慢" ​

"响应质量差" ​

高级配置 ​

自定义模型 ​

仅 API 模式 ​

下一步 ​

本地模型配置指南

为什么使用本地 LLM？

优势

权衡

支持的模型

Qwen2.5-Coder（推荐）

其他兼容模型

安装

步骤 1：安装 Ollama

macOS

Linux

Windows

步骤 2：验证安装

步骤 3：拉取模型

步骤 4：启动 Ollama

配置 IfAI

基本设置

手动配置

模型选择

配置选项

模型设置

性能设置

性能调优

按模型的硬件要求

优化技巧

减少内存使用

提高速度

Apple Silicon

NVIDIA GPU

混合模式

配置

工作原理

使用场景

测试您的设置

基本测试

代码生成测试

性能测试

故障排查

"无法连接到 Ollama"

"未找到模型"

"内存不足"

"响应缓慢"

"响应质量差"

高级配置

自定义模型

仅 API 模式

下一步