知识库/知识库管理与索引维护
4.7 知识库管理与索引维护
为了让 Pop 的知识库始终保持稳定、高效、可靠,你需要了解如何管理文档、重建索引以及监控索引任务状态。本章节将介绍知识库的所有管理能力,包括文档查看、重新索引、删除、错误处理与性能维护。
📁 一、文档管理功能
进入知识库后,你可以看到一个文档列表。每个文档都是知识库内容的来源,对应解析、分段与索引任务。
文档列表中包含的信息:
| 字段 | 说明 |
|---|---|
| 文档名称 | 原始文件名或用户输入名称 |
| 类型 | PDF、Word、Markdown、URL、纯文本等 |
| 分段数 | 文档被切分后的 Chunk 数量 |
| 向量状态 | 是否已生成完成 |
| 创建时间 | 文档添加的时间 |
| 操作 | 预览 / 重新索引 / 删除 |
你可以点击文档查看其:
- 文档解析内容(文本视图)
- 结构化标题
- 分段列表
- 内容预览(如 PDF 页预览)
🔄 二、重新索引文档
以下情况建议重新索引文档:
- 文档内容发生了更新
- 向量模型更新了(例如你切换了向量模型并重新创建知识库)
- 部分内容解析失败
- 之前的 OCR 质量不佳,需要重新识别
点击文档右侧菜单中的 「重新索引」 即可重新生成:
- 文档解析
- 清洗
- 分段
- 向量嵌入
- BM25 索引
Pop 会自动处理这些任务,用户无需介入。
🧩 三、删除文档
删除文档会同步删除:
- 文档内容
- 所有分段(Chunk)
- 向量索引
- BM25 索引
删除前会弹出二次确认,避免误删。
⚠️ 删除文档将导致该文档相关的知识库问答信息完全失效,不可恢复。
📚 四、查看分段(Chunks)
点击「分段」按钮可查看所有切分后的 Chunk,包括:
- 片段内容
- token 数量
- 片段顺序
- 所属标题链路
- 向量生成状态
这对于调试知识库问答非常有帮助,例如:
- 某些段落切得太短 / 太长
- 某些段落缺失
- 某些段落解析错误
🛠 五、索引维护(Index Maintenance)
Pop 使用双索引结构:
- 向量索引(Embedding KNN)
- BM25 文本倒排索引
这些索引会在以下场景自动维护:
自动维护情况:
- 添加新文档
- 删除文档
- 文档重新索引
- 清理任务执行后
- 向量生成器重新配置(未来版本)
手动维护操作:
在知识库右上角更多菜单中可选择:
- 重建整个知识库的索引
- 清理无效分段
- 刷新索引统计
建议每当大量文档更新后执行手动重建索引。
🚨 六、索引任务状态与错误排查
你可以在「任务列表」中查看每个任务的状态:
| 状态 | 含义 |
|---|---|
| 排队中 | 等待系统执行 |
| 进行中 | 文档正在解析或生成向量 |
| 成功 | 任务执行成功 |
| 失败 | 遇到异常,需要人工处理 |
常见错误包括:
- OCR 失败(扫描 PDF)
- 文档内容无法解析
- 字符集编码问题
- URL 抓取失败
- 向量模型不可用
每条失败任务都附带详细日志,可用于排查问题。
🧹 七、知识库清理功能
Pop 提供以下清理机制:
1. 清理孤立 Chunk
某些 Chunk 可能因文档删除而未及时清理,可执行自动清理。
2. 清除失败任务记录
保持任务列表整洁。
3. 重建索引
完全重建整个知识库的索引,适用于:
- 模型升级
- 大批文档更新
- 召回质量下降
📈 八、索引性能优化建议
为了获得更好的知识库问答体验,你可以参考以下建议:
- 文档尽量保持结构清晰(标题、段落明确)
- 避免上传过于分散的零碎短文
- PDF 尽量选择非扫描版
- 控制每个知识库的规模(推荐 5000 ~ 50,000 chunks)
- 定期重建索引(尤其是大量新增后)