知识库/添加内容:文档 / URL / 手动输入
4.3 添加内容:文档 / URL / 手动输入
创建知识库后,下一步就是向其中添加内容。Pop 支持丰富的内容来源,包括本地文档、网页 URL 抓取、复制粘贴的文字内容,甚至未来还将支持 API 方式同步知识。
本节将介绍所有支持的方式,并解释 Pop 如何对内容进行解析与处理。
🗂️ 一、支持的文档格式(与文档中心完全一致)
Pop 知识库支持与「文档中心」相同的完整格式,包括但不限于:
📄 文本类
.txt.md(Markdown).rst.log.json.xml.yaml/.yml.csv/.tsv.ini/.conf.env
📝 办公文档类
.pdf.doc/.docx.ppt/.pptx.xls/.xlsx.odt/.ods/.odp
📚 电子书类
.epub.mobi.azw/.azw3.fb2/.fbz.cbz.djvu
🧑💻 代码类文件
(Pop 不将代码当作文档执行,仅视为可索引文本)
.py.js/.mjs.ts/.tsx.jsx.java.cpp/.c.go.php.rb.cs.swift.scala.kt.rs.lua.sh/.bat/.ps1.sql.tf.dockerfile.hbs/.ejs/.jinja/.mustache
🎨 图形 / 结构类
(Pop 会自动 OCR 或提取可用文本)
.svg.vsd
⚠️ 注意:二进制图片(png/jpg)不会作为知识库文档添加,但会被 AI 聊天的多模态能力识别。
如果你想将图像内容转为可检索文本,请转换成 PDF 或 Markdown 再导入知识库。
📥 二、添加文档的三种方式
Pop 为知识库提供三类内容导入方式,灵活适配不同来源。
方式一:上传文档(最常用)
在知识库界面点击:
「上传文档」 → 选择本地文件
Pop 将自动完成:
- 文档解析(PDF / Word / PPT / Markdown 等)
- 清理无关内容(页眉/页脚/样式)
- 自动抽取标题与摘要
- 文档分段(Chunking)
- 向量嵌入生成
- BM25 索引生成
你可以上传:
- 单个文件
- 多个文件(批量上传)
- 整个文件夹(将批量导入功能开启时)
文档上传后会显示在文档列表中,可查看:
- 文档名
- Page 数
- 分段数
- 索引状态
- 错误消息(如 OCR 失败)
方式二:通过 URL 抓取网页内容
点击 「添加 URL」,输入网页地址即可。
Pop 会自动执行:
- 请求网页
- 自动提取正文内容(去广告、去导航)
- 清理网页噪声
- 自动标题识别
- 自动摘要生成
- 分段与向量化
适用于:
- 产品文档网站
- 技术博客文章
- 在线教程
- 公司知识库网站
- 新闻类文档
支持标准 HTML、移动版网页、部分前端渲染页面(SSR 页面识别效果更佳)。
方式三:手动输入内容
点击 「手动添加文本」,即可录入或粘贴任意文本内容,包括:
- 会议记录
- 项目要点
- 产品功能说明
- 手写整理的知识
- AI 生成内容
- 小段 FAQ
Pop 会自动按照自然段进行格式化,并进行分段与索引。
🛠 Pop 如何处理添加的内容?
无论你选择哪种方式,Pop 都会执行以下自动流程:
1. 文档解析(Parsing)
- PDF → 文本解析 + OCR
- Word / PPT → 文本提取
- Markdown → 结构解析
- URL → 正文抽取
- 代码文件 → 文本化处理
2. 文档清洗(Cleaning)
- 去掉页眉页脚
- 删除重复行
- 去噪(章节号、分页符等)
- 合并破碎段落
3. 文档分段(Chunking)
遵循 Pop 的智能策略:
- 按标题结构分段
- 自然段组合
- 维持片段长度区间:200~500 字最优
- 避免过长片段导致向量效果降低
4. 生成向量嵌入(Embedding)
使用你为该知识库选择的模型生成向量。
5. 构建检索索引(Indexing)
包含:
- 向量 KNN 索引
- BM25 文本关键词索引
- 混合检索权重
最终用于 RAG 高质量问答。
📊 添加后的文档管理
文档上传后,你可以:
- 查看结构化摘要
- 预览文档内容
- 重新索引某个文档
- 删除文档
- 查看所有分段
- 查看每段向量生成状态
- 导出片段(用于调试 RAG)
若索引过程中存在错误,Pop 会在「任务列表」中显示详细错误原因。
📌 总结
Pop 提供灵活的三种内容添加方式:
| 添加方式 | 适用场景 | 自动处理流程 |
|---|---|---|
| 上传文档 | 从电脑导入文件 | 解析 → 分段 → 嵌入 → 索引 |
| 添加 URL | 抓取网页内容 | 提取正文 → 分段 → 嵌入 |
| 手动文本 | 小段内容/FAQ | 生成段落 → 嵌入 → 索引 |
无论文档内容从哪里来,Pop 都能将其标准化、结构化,并最终用于高质量 RAG 问答。