8.5 模型设置（Model Providers）

模型设置用于管理 Pop 中所有 AI 模型的来源、账户配置、运行参数与默认规则。
无论是聊天、写作、知识库检索、图像识别还是音频转文字，均依赖模型提供能力。

本章将介绍如何管理模型服务商、模型参数、默认模型以及相关的运行逻辑。

一、模型服务商管理（Model Providers）

Pop 支持多种主流 AI 服务商，并允许混合使用：

✅ 内置支持的模型平台

类型	服务商	说明
文本 & 多模态模型	OpenAI	兼容 GPT 系列、O 系列、多模态模型
	DeepSeek	适合推理、逻辑能力强的模型
	Moonshot	高性价比长文本模型
	Google Gemini	强多模态能力
	Anthropic Claude	强阅读理解、总结能力
本地模型（Local）	Ollama	支持 Qwen、LLaMA、Phi 等开源模型
	LM Studio	桌面本地推理引擎
自定义模型	HTTP API	可配置任意兼容 OpenAI API 协议的模型服务

你可以在模型设置中自由添加、编辑、禁用与删除模型服务商。

二、文本大语言模型（Text LLM）

文本 LLM 是 Pop 使用频率最高的模型，主要用于：

对话、问答
写作、总结
工作流执行（AI 节点）
知识库重写 / 摘要 / 答复
代码编写与调试

可配置项

项目	描述
API Key	各服务商的密钥，可加密保存
模型名称	选择具体模型（如 gpt-4o-mini、deepseek-chat 等）
基础 URL	自建模型服务需要指定
组织 ID / 项目 ID	某些服务商必填
并发与限速	限制调用速率避免封号
默认模型	在对话、KB、工作流中默认使用哪个模型

三、图像模型（Image Models）

用于图像生成、图像编辑、图像增强、OCR 等能力。
例如：

图片识别（App 内容理解、截图解读）
文生图 / 图生图（如 OpenAI Image 系列）
多模态 PDF 分析
工作流图像处理节点

配置项包括：

模型类型（OCR、生成、增强）
输出尺寸（例如 1024×1024）
质量模式（standard / high）
安全等级
图像格式（PNG/JPG/WebP）

四、语音模型（Speech Models）

语音模型用于：

语音转文字（ASR）
文字转语音（TTS）
视频语音提取（未来）

支持设置：

输入语言
输出语音风格（播音、女声、男声）
输出格式（mp3 / wav / pcm）
本地或云端引擎选择

Pop 内置 Whisper、本地 ASR、以及部分服务商提供的 TTS/ASR 模型。

五、视频模型（Video Models）

（如果 Pop 已支持）

用来：

视频字幕自动提取
视频总结
多模态对话（视频帧分析）
视频知识库（未来扩展）

支持配置模型源、关键帧间隔、输出格式等。

六、通用模型参数（Global Model Parameters）

无论是哪种模型，都可以设置通用的推理参数。

常见参数

参数	描述
temperature	控制随机性（越高越有创意）
top_p	Nucleus Sampling 参数
max_tokens	最大输出长度
frequency_penalty	降低重复语句
presence_penalty	提升话题多样性
stop	自定义停止符

可为：

全局默认
对话默认
工作流 AI 节点单独设置
笔记 / 文档 AI 模型单独设置

七、自定义模型（Custom Models）

支持添加任何兼容 OpenAI API 协议 的模型服务。

你需要提供：

Base URL
API Key
模型名称
是否流式输出
请求格式（可选）
超时与重试策略

适合接入：

自建模型（vLLM、LMDeploy、FastAPI + Transformers）
第三方平台（SiliconFlow、TogetherAI 等）

八、模型测试工具（Model Tester）

模型设置中提供快速测试功能：

输入测试 Prompt
查看流式输出
查看 token 消耗
查看是否报错
自动测延迟

非常适合集成新模型后验证。

九、模型优先级与默认策略（Defaults & Priority）

Pop 允许为不同功能设置不同默认模型：

功能	可设置默认模型
对话窗口	默认聊天模型
文档摘要	默认长文本模型
知识库问答	默认 KB 推理模型
工作流	AI 节点默认模型
图像识别	默认 OCR 模型
语音转文字	默认 ASR 模型

你可以在系统设置 → 模型设置中自由调整。

十、最佳实践（Tips）

需要可靠性 → 用 OpenAI 官方模型
需要性价比 → 选 DeepSeek / Moonshot / SiliconFlow
需要离线能力 → 使用本地 Ollama 模型
长文本任务 → 大上下文模型（如 200k token）
图像理解任务 → 选择强多模态模型（GPT-4o 系列、Gemini）
工作流中使用模型 → 单节点建议设置独立参数

如需进一步配置，可前往 系统设置 → 模型设置（Model Providers） 页面完善所有服务商信息。