AI 助手/多模态理解(图像 / PDF / 文件解析)

3.7 多模态理解(Multimodal Understanding)

Pop 集成了先进的多模态 AI 能力,让你的助手不仅能阅读文本,还能看图、看 PDF、看截图、看表格、理解结构化内容
无论是技术流程图、截图报错、扫描版 PDF、设计稿、表格数据,AI 都能帮你提取、总结与分析。

本章节将介绍 Pop 支持的多模态能力及其使用方式。


🎯 多模态的用途与优势

多模态理解可以帮助你解决大量实际问题:

使用场景 AI 能为你做什么
截图报错分析 自动识别报错信息、定位问题、提供解决方案
图片理解 读取界面内容、识别图形、分析信息结构
PDF 摘要 将冗长文档转为结构化摘要
扫描件 / OCR 识别图片中的文字并清晰输出
表格理解 自动提取表格数据并转换成 JSON/Markdown
图示分析 理解架构图、流程图、运营报表等
文件问答 针对图像/PDF 提问并自动引用内容

🖼️ 1. 图像理解(Image Understanding)

你可以直接将图片拖拽到聊天窗口,也可以用 “上传图片” 功能:

支持的常见格式:

  • PNG / JPG / JPEG
  • Screenshot(macOS / Windows 截图)
  • UI 截图、报错截图
  • 图表与流程图

AI 可以:

  • 阅读文字
  • 识别界面组件
  • 总结内容
  • 翻译图片中的文字
  • 给出代码修复建议(用于报错截图)
  • 对图表内容进行结构化解析

📄 2. PDF 文档理解

Pop 支持将 PDF 文件直接拖入聊天窗口进行分析。

AI 可处理:

  • 普通 PDF
  • 含文字版 PDF
  • 扫描版 PDF(自动 OCR)
  • 多页技术文档
  • 论文、规范、技术报告

支持功能包括:

✔ PDF 摘要

生成分章节摘要、重点提取、结构化目录。

✔ PDF 问答

从 PDF 内容中精准定位答案。

✔ PDF 内容结构提取

可以让 AI 输出:

  • 段落
  • 目录树结构
  • 表格
  • 代码块
  • 注释摘要

✔ OCR 处理扫描件

扫描版合同、快递单、拍照书页,也能顺利识别。


📁 3. 文件理解(File Insight)

除了图像与 PDF,Pop 还可以理解多种文件内容,包括:

  • Word(doc/docx)
  • Excel(xls/xlsx)
  • Markdown(md)
  • 文本文件(txt/log/json/yaml)
  • 代码文件

你可以把文件拖入窗口,AI 会自动完成解析,不需要手动复制内容。


🔍 4. OCR 与文字解析引擎

Pop 内置 OCR(文本识别能力)用于解析:

  • 扫描版合同
  • 手机拍摄的文档
  • 白板照片
  • 表格截图
  • 票据、收据

OCR 输出格式可以是:

  • 原始文本
  • Markdown 排版
  • 表格结构化 JSON

示例:

{
  "column1": "商品",
  "column2": "数量",
  "column3": "金额"
}

📊 5. 数据提取与结构化内容生成

AI 不仅能读取文件,还能提取结构化信息

  • 发票字段识别
  • 表格转 JSON
  • 报告转 bullet points
  • 表单识别
  • Key-value 信息抽取

例如:

“从这张图片中提取所有价格并生成 JSON”

或:

“把 PDF 中的所有章节结构转换成大纲”

这些能力使 Pop 特别适合办公工作、数据记录、文档整理等场景。


🤖 6. 多模态 + 工作流联动

在工作流中,AI 节点也可以处理文件:

  • 自动读取上传的 PDF
  • 摘要后传给下游节点
  • 从截图中提取表格并生成 Excel
  • 对上传的图片执行 OCR,并用于后续逻辑判断

你可以利用工作流构建完整的自动化流程。


🛠 如何使用 Pop 的多模态能力?

步骤非常简单:

1. 直接拖拽文件到聊天窗口

AI 会自动识别文件类型。

2. 点击“上传文件”按钮

支持选择多种文件格式。

3. 用工作流自动处理上传的文件

适合自动执行任务。

4. 配合知识库

图片/PDF 也能作为知识库资源使用。


🔐 隐私与本地安全

Pop 采用安全策略:

  • 文件在本地解析(如 OCR、PDF 文本提取)
  • 上传给云端模型的内容 严格由你决定
  • 不会收集、存储或上传到第三方

本地模型(如 Ollama)处理多模态时,数据完全不离开你的电脑。


📌 小结

Pop 的多模态能力让 AI 不再局限于“聊天”,而能真正理解:

  • 图片
  • 截图
  • PDF
  • 表格
  • 文本文件

并基于这些内容完成摘要、分析、问答、提取结构化数据等高阶任务。