知识库/添加内容:文档 / URL / 手动输入

4.3 添加内容:文档 / URL / 手动输入

创建知识库后,下一步就是向其中添加内容。Pop 支持丰富的内容来源,包括本地文档、网页 URL 抓取、复制粘贴的文字内容,甚至未来还将支持 API 方式同步知识。

本节将介绍所有支持的方式,并解释 Pop 如何对内容进行解析与处理。


🗂️ 一、支持的文档格式(与文档中心完全一致)

Pop 知识库支持与「文档中心」相同的完整格式,包括但不限于:

📄 文本类

  • .txt
  • .md(Markdown)
  • .rst
  • .log
  • .json
  • .xml
  • .yaml / .yml
  • .csv / .tsv
  • .ini / .conf
  • .env

📝 办公文档类

  • .pdf
  • .doc / .docx
  • .ppt / .pptx
  • .xls / .xlsx
  • .odt / .ods / .odp

📚 电子书类

  • .epub
  • .mobi
  • .azw / .azw3
  • .fb2 / .fbz
  • .cbz
  • .djvu

🧑‍💻 代码类文件

(Pop 不将代码当作文档执行,仅视为可索引文本)

  • .py
  • .js / .mjs
  • .ts / .tsx
  • .jsx
  • .java
  • .cpp / .c
  • .go
  • .php
  • .rb
  • .cs
  • .swift
  • .scala
  • .kt
  • .rs
  • .lua
  • .sh / .bat / .ps1
  • .sql
  • .tf
  • .dockerfile
  • .hbs / .ejs / .jinja / .mustache

🎨 图形 / 结构类

(Pop 会自动 OCR 或提取可用文本)

  • .svg
  • .vsd

⚠️ 注意:二进制图片(png/jpg)不会作为知识库文档添加,但会被 AI 聊天的多模态能力识别。
如果你想将图像内容转为可检索文本,请转换成 PDF 或 Markdown 再导入知识库。


📥 二、添加文档的三种方式

Pop 为知识库提供三类内容导入方式,灵活适配不同来源。


方式一:上传文档(最常用)

在知识库界面点击:

「上传文档」 → 选择本地文件

Pop 将自动完成:

  • 文档解析(PDF / Word / PPT / Markdown 等)
  • 清理无关内容(页眉/页脚/样式)
  • 自动抽取标题与摘要
  • 文档分段(Chunking)
  • 向量嵌入生成
  • BM25 索引生成

你可以上传:

  • 单个文件
  • 多个文件(批量上传)
  • 整个文件夹(将批量导入功能开启时)

文档上传后会显示在文档列表中,可查看:

  • 文档名
  • Page 数
  • 分段数
  • 索引状态
  • 错误消息(如 OCR 失败)

方式二:通过 URL 抓取网页内容

点击 「添加 URL」,输入网页地址即可。

Pop 会自动执行:

  • 请求网页
  • 自动提取正文内容(去广告、去导航)
  • 清理网页噪声
  • 自动标题识别
  • 自动摘要生成
  • 分段与向量化

适用于:

  • 产品文档网站
  • 技术博客文章
  • 在线教程
  • 公司知识库网站
  • 新闻类文档

支持标准 HTML、移动版网页、部分前端渲染页面(SSR 页面识别效果更佳)。


方式三:手动输入内容

点击 「手动添加文本」,即可录入或粘贴任意文本内容,包括:

  • 会议记录
  • 项目要点
  • 产品功能说明
  • 手写整理的知识
  • AI 生成内容
  • 小段 FAQ

Pop 会自动按照自然段进行格式化,并进行分段与索引。


🛠 Pop 如何处理添加的内容?

无论你选择哪种方式,Pop 都会执行以下自动流程:

1. 文档解析(Parsing)

  • PDF → 文本解析 + OCR
  • Word / PPT → 文本提取
  • Markdown → 结构解析
  • URL → 正文抽取
  • 代码文件 → 文本化处理

2. 文档清洗(Cleaning)

  • 去掉页眉页脚
  • 删除重复行
  • 去噪(章节号、分页符等)
  • 合并破碎段落

3. 文档分段(Chunking)

遵循 Pop 的智能策略:

  • 按标题结构分段
  • 自然段组合
  • 维持片段长度区间:200~500 字最优
  • 避免过长片段导致向量效果降低

4. 生成向量嵌入(Embedding)

使用你为该知识库选择的模型生成向量。

5. 构建检索索引(Indexing)

包含:

  • 向量 KNN 索引
  • BM25 文本关键词索引
  • 混合检索权重

最终用于 RAG 高质量问答。


📊 添加后的文档管理

文档上传后,你可以:

  • 查看结构化摘要
  • 预览文档内容
  • 重新索引某个文档
  • 删除文档
  • 查看所有分段
  • 查看每段向量生成状态
  • 导出片段(用于调试 RAG)

若索引过程中存在错误,Pop 会在「任务列表」中显示详细错误原因。


📌 总结

Pop 提供灵活的三种内容添加方式:

添加方式 适用场景 自动处理流程
上传文档 从电脑导入文件 解析 → 分段 → 嵌入 → 索引
添加 URL 抓取网页内容 提取正文 → 分段 → 嵌入
手动文本 小段内容/FAQ 生成段落 → 嵌入 → 索引

无论文档内容从哪里来,Pop 都能将其标准化、结构化,并最终用于高质量 RAG 问答。