知识库/知识库管理与索引维护

4.7 知识库管理与索引维护

为了让 Pop 的知识库始终保持稳定、高效、可靠,你需要了解如何管理文档、重建索引以及监控索引任务状态。本章节将介绍知识库的所有管理能力,包括文档查看、重新索引、删除、错误处理与性能维护。


📁 一、文档管理功能

进入知识库后,你可以看到一个文档列表。每个文档都是知识库内容的来源,对应解析、分段与索引任务。

文档列表中包含的信息:

字段 说明
文档名称 原始文件名或用户输入名称
类型 PDF、Word、Markdown、URL、纯文本等
分段数 文档被切分后的 Chunk 数量
向量状态 是否已生成完成
创建时间 文档添加的时间
操作 预览 / 重新索引 / 删除

你可以点击文档查看其:

  • 文档解析内容(文本视图)
  • 结构化标题
  • 分段列表
  • 内容预览(如 PDF 页预览)

🔄 二、重新索引文档

以下情况建议重新索引文档:

  • 文档内容发生了更新
  • 向量模型更新了(例如你切换了向量模型并重新创建知识库)
  • 部分内容解析失败
  • 之前的 OCR 质量不佳,需要重新识别

点击文档右侧菜单中的 「重新索引」 即可重新生成:

  • 文档解析
  • 清洗
  • 分段
  • 向量嵌入
  • BM25 索引

Pop 会自动处理这些任务,用户无需介入。


🧩 三、删除文档

删除文档会同步删除:

  • 文档内容
  • 所有分段(Chunk)
  • 向量索引
  • BM25 索引

删除前会弹出二次确认,避免误删。

⚠️ 删除文档将导致该文档相关的知识库问答信息完全失效,不可恢复。


📚 四、查看分段(Chunks)

点击「分段」按钮可查看所有切分后的 Chunk,包括:

  • 片段内容
  • token 数量
  • 片段顺序
  • 所属标题链路
  • 向量生成状态

这对于调试知识库问答非常有帮助,例如:

  • 某些段落切得太短 / 太长
  • 某些段落缺失
  • 某些段落解析错误

🛠 五、索引维护(Index Maintenance)

Pop 使用双索引结构:

  1. 向量索引(Embedding KNN)
  2. BM25 文本倒排索引

这些索引会在以下场景自动维护:

自动维护情况:

  • 添加新文档
  • 删除文档
  • 文档重新索引
  • 清理任务执行后
  • 向量生成器重新配置(未来版本)

手动维护操作:

在知识库右上角更多菜单中可选择:

  • 重建整个知识库的索引
  • 清理无效分段
  • 刷新索引统计

建议每当大量文档更新后执行手动重建索引。


🚨 六、索引任务状态与错误排查

你可以在「任务列表」中查看每个任务的状态:

状态 含义
排队中 等待系统执行
进行中 文档正在解析或生成向量
成功 任务执行成功
失败 遇到异常,需要人工处理

常见错误包括:

  • OCR 失败(扫描 PDF)
  • 文档内容无法解析
  • 字符集编码问题
  • URL 抓取失败
  • 向量模型不可用

每条失败任务都附带详细日志,可用于排查问题。


🧹 七、知识库清理功能

Pop 提供以下清理机制:

1. 清理孤立 Chunk

某些 Chunk 可能因文档删除而未及时清理,可执行自动清理。

2. 清除失败任务记录

保持任务列表整洁。

3. 重建索引

完全重建整个知识库的索引,适用于:

  • 模型升级
  • 大批文档更新
  • 召回质量下降

📈 八、索引性能优化建议

为了获得更好的知识库问答体验,你可以参考以下建议:

  • 文档尽量保持结构清晰(标题、段落明确)
  • 避免上传过于分散的零碎短文
  • PDF 尽量选择非扫描版
  • 控制每个知识库的规模(推荐 5000 ~ 50,000 chunks)
  • 定期重建索引(尤其是大量新增后)