Skip to content
写作:待补充更新:2026-05-16字数:—阅读:—维护:Azek431

OCR 状态词与回链规范

本文用于统一 OCR 目录中的状态词、回链方式和维护习惯,减少后续补档时的表述漂移。


1. 统一状态词

全库统一使用以下状态词:

  • 已入档
  • 已入档(待复核)
  • 无有效文本
  • 疑似重复页
  • 备份文件(.hwbk
  • 待处理

1.1 释义

  • 已入档:已有稳定 OCR 条目,可直接作为知识库证据引用
  • 已入档(待复核):已有条目,但在 OCR 识别、版本归属、主题细节等方面仍需校正
  • 无有效文本:当前 OCR 无法提取稳定文本,不代表图片本身完全无价值
  • 疑似重复页:与其他页面高度重复,通常只需保留主证据页并建立引用
  • 备份文件(.hwbk):仅表示文件存在,不纳入主图 OCR 统计
  • 待处理:已知有图或编号,但尚未建立稳定条目

1.2 禁止混用的旧说法

后续尽量不要再单独使用这些松散词:

  • 无效页
  • 无文字页
  • 重复校对页
  • 待补页
  • 待补专题

如必须出现,应同步换写为统一状态词。


2. 三段式回链标准

高价值主题建议至少建立下面三段式回链:

  1. 来源截图编号
  2. 对应 OCR 文档
  3. 对应专题文档 / 索引文档

推荐格式:

  • 来源截图编号:112406, 112424, 112435
  • 对应 OCR 文档:docs/OCR资料/官方教程截图转文本索引.md
  • 对应专题文档:docs/脚本系统/专题研究/创游世界战斗系统设计入门.md

这样可实现:

  • 从专题反查证据页
  • 从 OCR 页反查解释文档
  • 从映射表统一维护主题归属

3. 文档层级分工

3.1 OCR 原文归档层

用于保留截图 OCR 原文、人工整理和关键词。

3.2 映射层

用于建立“编号 → 主题 → 文档 → 状态”的索引关系。

3.3 专题层

用于对多页 OCR 证据进行解释、归纳、教学化表达。

3.4 总览 / 推进层

用于说明当前做到了哪、还差哪、下一步补什么。


4. 实操建议

  1. 先记编号,再补 OCR,再回填专题
  2. 重复页优先标主证据页,不强求全文重复录入
  3. 信息主体可用但细节有噪声时,优先标 已入档(待复核)
  4. 若专题已成文,务必把截图编号回写到专题头部
  5. 若 OCR 文档已补高价值新页,务必同步更新映射表

5. 当前最值得优先执行的补全方向

  1. 官方教程剩余高价值页的状态化
  2. 脚本截图编号段的继续回填
  3. 引擎更新版本页的“版本号 → 截图编号 → 功能点”闭环
  4. 高价值专题统一补齐来源截图编号与 OCR 回链

参与维护

发现文档问题?

你可以编辑页面、提交反馈,或复制链接给维护者,帮助这个资料库继续变好。

由 Azek431 整理与维护 | 基于 MIT 许可证开源