系统设置/模型设置

8.5 模型设置(Model Providers)

模型设置用于管理 Pop 中所有 AI 模型的来源、账户配置、运行参数与默认规则。
无论是聊天、写作、知识库检索、图像识别还是音频转文字,均依赖模型提供能力。

本章将介绍如何管理模型服务商、模型参数、默认模型以及相关的运行逻辑。


一、模型服务商管理(Model Providers)

Pop 支持多种主流 AI 服务商,并允许混合使用:

✅ 内置支持的模型平台

类型 服务商 说明
文本 & 多模态模型 OpenAI 兼容 GPT 系列、O 系列、多模态模型
DeepSeek 适合推理、逻辑能力强的模型
Moonshot 高性价比长文本模型
Google Gemini 强多模态能力
Anthropic Claude 强阅读理解、总结能力
本地模型(Local) Ollama 支持 Qwen、LLaMA、Phi 等开源模型
LM Studio 桌面本地推理引擎
自定义模型 HTTP API 可配置任意兼容 OpenAI API 协议的模型服务

你可以在模型设置中自由添加、编辑、禁用与删除模型服务商。


二、文本大语言模型(Text LLM)

文本 LLM 是 Pop 使用频率最高的模型,主要用于:

  • 对话、问答
  • 写作、总结
  • 工作流执行(AI 节点)
  • 知识库重写 / 摘要 / 答复
  • 代码编写与调试

可配置项

项目 描述
API Key 各服务商的密钥,可加密保存
模型名称 选择具体模型(如 gpt-4o-mini、deepseek-chat 等)
基础 URL 自建模型服务需要指定
组织 ID / 项目 ID 某些服务商必填
并发与限速 限制调用速率避免封号
默认模型 在对话、KB、工作流中默认使用哪个模型

三、图像模型(Image Models)

用于图像生成、图像编辑、图像增强、OCR 等能力。
例如:

  • 图片识别(App 内容理解、截图解读)
  • 文生图 / 图生图(如 OpenAI Image 系列)
  • 多模态 PDF 分析
  • 工作流图像处理节点

配置项包括:

  • 模型类型(OCR、生成、增强)
  • 输出尺寸(例如 1024×1024)
  • 质量模式(standard / high)
  • 安全等级
  • 图像格式(PNG/JPG/WebP)

四、语音模型(Speech Models)

语音模型用于:

  • 语音转文字(ASR)
  • 文字转语音(TTS)
  • 视频语音提取(未来)

支持设置:

  • 输入语言
  • 输出语音风格(播音、女声、男声)
  • 输出格式(mp3 / wav / pcm)
  • 本地或云端引擎选择

Pop 内置 Whisper、本地 ASR、以及部分服务商提供的 TTS/ASR 模型。


五、视频模型(Video Models)

(如果 Pop 已支持)

用来:

  • 视频字幕自动提取
  • 视频总结
  • 多模态对话(视频帧分析)
  • 视频知识库(未来扩展)

支持配置模型源、关键帧间隔、输出格式等。


六、通用模型参数(Global Model Parameters)

无论是哪种模型,都可以设置通用的推理参数。

常见参数

参数 描述
temperature 控制随机性(越高越有创意)
top_p Nucleus Sampling 参数
max_tokens 最大输出长度
frequency_penalty 降低重复语句
presence_penalty 提升话题多样性
stop 自定义停止符

可为:

  • 全局默认
  • 对话默认
  • 工作流 AI 节点单独设置
  • 笔记 / 文档 AI 模型单独设置

七、自定义模型(Custom Models)

支持添加任何兼容 OpenAI API 协议 的模型服务。

你需要提供:

  • Base URL
  • API Key
  • 模型名称
  • 是否流式输出
  • 请求格式(可选)
  • 超时与重试策略

适合接入:

  • 自建模型(vLLM、LMDeploy、FastAPI + Transformers)
  • 第三方平台(SiliconFlow、TogetherAI 等)

八、模型测试工具(Model Tester)

模型设置中提供快速测试功能:

  • 输入测试 Prompt
  • 查看流式输出
  • 查看 token 消耗
  • 查看是否报错
  • 自动测延迟

非常适合集成新模型后验证。


九、模型优先级与默认策略(Defaults & Priority)

Pop 允许为不同功能设置不同默认模型:

功能 可设置默认模型
对话窗口 默认聊天模型
文档摘要 默认长文本模型
知识库问答 默认 KB 推理模型
工作流 AI 节点默认模型
图像识别 默认 OCR 模型
语音转文字 默认 ASR 模型

你可以在系统设置 → 模型设置中自由调整。


十、最佳实践(Tips)

  • 需要可靠性 → 用 OpenAI 官方模型
  • 需要性价比 → 选 DeepSeek / Moonshot / SiliconFlow
  • 需要离线能力 → 使用本地 Ollama 模型
  • 长文本任务 → 大上下文模型(如 200k token)
  • 图像理解任务 → 选择强多模态模型(GPT-4o 系列、Gemini)
  • 工作流中使用模型 → 单节点建议设置独立参数

如需进一步配置,可前往 系统设置 → 模型设置(Model Providers) 页面完善所有服务商信息。