3.7 多模态理解（Multimodal Understanding）

Pop 集成了先进的多模态 AI 能力，让你的助手不仅能阅读文本，还能看图、看 PDF、看截图、看表格、理解结构化内容。
无论是技术流程图、截图报错、扫描版 PDF、设计稿、表格数据，AI 都能帮你提取、总结与分析。

本章节将介绍 Pop 支持的多模态能力及其使用方式。

🎯 多模态的用途与优势

多模态理解可以帮助你解决大量实际问题：

使用场景	AI 能为你做什么
截图报错分析	自动识别报错信息、定位问题、提供解决方案
图片理解	读取界面内容、识别图形、分析信息结构
PDF 摘要	将冗长文档转为结构化摘要
扫描件 / OCR	识别图片中的文字并清晰输出
表格理解	自动提取表格数据并转换成 JSON/Markdown
图示分析	理解架构图、流程图、运营报表等
文件问答	针对图像/PDF 提问并自动引用内容

🖼️ 1. 图像理解（Image Understanding）

你可以直接将图片拖拽到聊天窗口，也可以用 “上传图片” 功能：

支持的常见格式：

PNG / JPG / JPEG
Screenshot（macOS / Windows 截图）
UI 截图、报错截图
图表与流程图

AI 可以：

阅读文字
识别界面组件
总结内容
翻译图片中的文字
给出代码修复建议（用于报错截图）
对图表内容进行结构化解析

📄 2. PDF 文档理解

Pop 支持将 PDF 文件直接拖入聊天窗口进行分析。

AI 可处理：

普通 PDF
含文字版 PDF
扫描版 PDF（自动 OCR）
多页技术文档
论文、规范、技术报告

支持功能包括：

✔ PDF 摘要

生成分章节摘要、重点提取、结构化目录。

✔ PDF 问答

从 PDF 内容中精准定位答案。

✔ PDF 内容结构提取

可以让 AI 输出：

段落
目录树结构
表格
代码块
注释摘要

✔ OCR 处理扫描件

扫描版合同、快递单、拍照书页，也能顺利识别。

📁 3. 文件理解（File Insight）

除了图像与 PDF，Pop 还可以理解多种文件内容，包括：

Word（doc/docx）
Excel（xls/xlsx）
Markdown（md）
文本文件（txt/log/json/yaml）
代码文件

你可以把文件拖入窗口，AI 会自动完成解析，不需要手动复制内容。

🔍 4. OCR 与文字解析引擎

Pop 内置 OCR（文本识别能力）用于解析：

扫描版合同
手机拍摄的文档
白板照片
表格截图
票据、收据

OCR 输出格式可以是：

原始文本
Markdown 排版
表格结构化 JSON

示例：

{
  "column1": "商品",
  "column2": "数量",
  "column3": "金额"
}

📊 5. 数据提取与结构化内容生成

AI 不仅能读取文件，还能提取结构化信息：

发票字段识别
表格转 JSON
报告转 bullet points
表单识别
Key-value 信息抽取

例如：

“从这张图片中提取所有价格并生成 JSON”

或：

“把 PDF 中的所有章节结构转换成大纲”

这些能力使 Pop 特别适合办公工作、数据记录、文档整理等场景。

🤖 6. 多模态 + 工作流联动

在工作流中，AI 节点也可以处理文件：

自动读取上传的 PDF
摘要后传给下游节点
从截图中提取表格并生成 Excel
对上传的图片执行 OCR，并用于后续逻辑判断

你可以利用工作流构建完整的自动化流程。

🛠 如何使用 Pop 的多模态能力？

步骤非常简单：

1. 直接拖拽文件到聊天窗口

AI 会自动识别文件类型。

2. 点击“上传文件”按钮

支持选择多种文件格式。

3. 用工作流自动处理上传的文件

适合自动执行任务。

4. 配合知识库

图片/PDF 也能作为知识库资源使用。

🔐 隐私与本地安全

Pop 采用安全策略：

文件在本地解析（如 OCR、PDF 文本提取）
上传给云端模型的内容 严格由你决定
不会收集、存储或上传到第三方

本地模型（如 Ollama）处理多模态时，数据完全不离开你的电脑。

📌 小结

Pop 的多模态能力让 AI 不再局限于“聊天”，而能真正理解：

图片
截图
PDF
表格
文本文件

并基于这些内容完成摘要、分析、问答、提取结构化数据等高阶任务。