OCR 状态词与回链规范
本文用于统一 OCR 目录中的状态词、回链方式和维护习惯,减少后续补档时的表述漂移。
1. 统一状态词
全库统一使用以下状态词:
- 已入档
- 已入档(待复核)
- 无有效文本
- 疑似重复页
- 备份文件(
.hwbk) - 待处理
1.1 释义
已入档:已有稳定 OCR 条目,可直接作为知识库证据引用已入档(待复核):已有条目,但在 OCR 识别、版本归属、主题细节等方面仍需校正无有效文本:当前 OCR 无法提取稳定文本,不代表图片本身完全无价值疑似重复页:与其他页面高度重复,通常只需保留主证据页并建立引用备份文件(.hwbk):仅表示文件存在,不纳入主图 OCR 统计待处理:已知有图或编号,但尚未建立稳定条目
1.2 禁止混用的旧说法
后续尽量不要再单独使用这些松散词:
- 无效页
- 无文字页
- 重复校对页
- 待补页
- 待补专题
如必须出现,应同步换写为统一状态词。
2. 三段式回链标准
高价值主题建议至少建立下面三段式回链:
- 来源截图编号
- 对应 OCR 文档
- 对应专题文档 / 索引文档
推荐格式:
- 来源截图编号:
112406, 112424, 112435 - 对应 OCR 文档:
docs/OCR资料/官方教程截图转文本索引.md - 对应专题文档:
docs/脚本系统/专题研究/创游世界战斗系统设计入门.md
这样可实现:
- 从专题反查证据页
- 从 OCR 页反查解释文档
- 从映射表统一维护主题归属
3. 文档层级分工
3.1 OCR 原文归档层
用于保留截图 OCR 原文、人工整理和关键词。
3.2 映射层
用于建立“编号 → 主题 → 文档 → 状态”的索引关系。
3.3 专题层
用于对多页 OCR 证据进行解释、归纳、教学化表达。
3.4 总览 / 推进层
用于说明当前做到了哪、还差哪、下一步补什么。
4. 实操建议
- 先记编号,再补 OCR,再回填专题
- 重复页优先标主证据页,不强求全文重复录入
- 信息主体可用但细节有噪声时,优先标
已入档(待复核) - 若专题已成文,务必把截图编号回写到专题头部
- 若 OCR 文档已补高价值新页,务必同步更新映射表
5. 当前最值得优先执行的补全方向
- 官方教程剩余高价值页的状态化
- 脚本截图编号段的继续回填
- 引擎更新版本页的“版本号 → 截图编号 → 功能点”闭环
- 高价值专题统一补齐来源截图编号与 OCR 回链
