Skip to content
写作:待补充更新:2026-05-16字数:—阅读:—维护:Azek431

OCR 证据使用规范

一句话摘要:这是一份面向维护者、研究者和 AI 检索系统的 OCR 证据使用规则页,目的不是让所有文档都堆原文,而是让"截图证据 → OCR 文本 → 专题结论"形成可回查、可降级、可维护的链路。

适合对象:维护者、研究者、AI 检索系统、需要查证据的进阶玩家 当前状态:已整理 可信度:[已确认] 关联文档:docs/OCR资料/OCR资料导航.mddocs/OCR资料/OCR 证据链说明.mddocs/OCR资料/映射表/OCR 图片编号映射表.md

这页解决什么问题

这页主要解决下面几类常见问题:

  • 什么情况下应该给专题页补 OCR 回链
  • OCR 原文应该怎么引用才不显得杂乱
  • OCR 有错字时该怎么处理
  • 什么时候能写成“已确认”,什么时候只能写“高可信推断”
  • 维护时怎样快速检查一页是否已经具备最小证据链

一、先分清 4 层内容

在这个资料库里,建议始终把下面 4 层区分开:

  1. 原始截图层

    • 是最底层证据源
    • 价值最高,但不方便全文检索
  2. OCR 文本层

    • 是把截图转成可搜索文本的中间层
    • 方便引用,但可能存在识别误差
  3. 编号映射层

    • 用来把图片编号、OCR 文档、专题文档串起来
    • 是最关键的追踪层
  4. 专题归纳层

    • 是读者最常看的结论页
    • 不应假装自己就是原始证据,而应能回查到底层

二、推荐的最小回链格式

高价值专题页,至少建议补下面这三项:

  • 来源截图编号:若干编号
  • 对应 OCR 文档:某个 OCR 转写页路径
  • 对应映射表:docs/OCR资料/映射表/OCR 图片编号映射表.md

推荐写法示例:

  • 来源截图编号:105506, 105510, 110352
  • 对应 OCR 文档:docs/OCR资料/引擎更新截图转文本.md
  • 对应映射表:docs/OCR资料/映射表/OCR 图片编号映射表.md

如果暂时拿不准编号是否精确齐全,也可以先写成“已定位到 OCR 文档,但编号仍待继续细化”,不要假装已经完整。

三、什么页面必须优先补 OCR 回链

优先级建议如下:

第一优先级

  • 结论密度高的专题页
  • 会被频繁引用的总览页
  • 涉及版本变化、联机、UI、广播、数据结构的核心页

第二优先级

  • 项目设计类专题页
  • 容易被误读为“官方定论”的归纳页
  • 对外展示时高频使用的解释页

第三优先级

  • 导航页
  • 路线页
  • 维护说明页

说明:

  • 导航页通常不需要逐段补证据编号
  • 但导航页应该把读者引向有证据链的正文页

四、如何处理 OCR 错字

OCR 文本不是圣旨,它只是中间层。

建议规则:

  • 如果 OCR 文本有明显错字,但结合上下文可判断原意,可以在专题页中使用规范术语表达。
  • 如果 OCR 文本含义模糊,不能直接强行下结论,应降级为 [待验证]
  • 如果 OCR 错字会影响关键判断,优先回看截图语境,而不是只看转写文本。

不要做的事:

  • 不要把 OCR 错字直接当成正式术语写进术语表
  • 不要把模糊文本硬写成“引擎已明确说明”
  • 不要因为 OCR 看起来像某个词,就跳过截图核对

五、结论等级怎么跟证据层对应

可以标成 [已确认] 的情况

通常至少满足以下之一:

  • 官方截图或更新说明直接明确写出
  • 多张截图与 OCR 原文能稳定互相印证
  • 文档中的说法基本属于“转述原文”,而不是额外推演

更适合标成 [高可信推断] 的情况

通常是:

  • 多来源材料指向同一结构规律
  • 但原始资料没有逐字明确说到这句话
  • 或专题结论里包含了整理者的抽象归纳

应标成 [待验证] 的情况

通常是:

  • 只有零碎截图线索
  • OCR 本身有歧义
  • 不同版本间可能存在差异
  • 还缺足够案例或实测支持

六、专题页里推荐怎么放证据说明

推荐放在头部元数据区附近,或放在文末“证据与来源”小节。

头部简式写法

  • 来源类型:官方更新 + 官方教程 + OCR 转写
  • 证据等级:多来源交叉归纳
  • 来源截图编号:105506, 105510, 110352
  • 对应 OCR 文档:docs/OCR资料/引擎更新截图转文本.md
  • 对应映射表:docs/OCR资料/映射表/OCR 图片编号映射表.md

文末详式写法

可增加:

  • 哪个结论主要来自哪类材料
  • 哪些部分是直接证据
  • 哪些部分是归纳解释
  • 哪些地方仍需要补更多截图

七、维护时的快速判断标准

如果一页满足下面大部分条件,就已经具备“最小可回查性”:

  • 有清晰的一句话摘要
  • 有当前状态和可信度
  • 有来源类型说明
  • 有至少一个 OCR 文档回链
  • 有映射表入口
  • 关键结论区分了“已确认 / 高可信推断 / 待验证”

八、常见错误

错误 1:把所有原文都塞进专题正文

后果:

  • 阅读体验会很差
  • 结论层和证据层混在一起

错误 2:只写“来源于 OCR”但不给路径

后果:

  • 实际上无法回查
  • AI 和维护者都很难继续接力

错误 3:有 OCR 文本就直接写成已确认

后果:

  • 容易忽略 OCR 误识别和上下文缺失

错误 4:专题里大量强结论,但没有编号或映射入口

后果:

  • 读者无法判断哪些是原文,哪些是整理者推演

九、推荐维护顺序

  1. 先给高价值专题补“对应 OCR 文档”
  2. 再补“来源截图编号”
  3. 再补“对应映射表”
  4. 最后再细化每段结论的等级说明

这样做比一开始追求逐段精确编号更稳,也更容易持续推进。

十、关联阅读

  • docs/OCR资料/OCR资料导航.md
  • docs/OCR资料/OCR 证据链说明.md
  • docs/维护与报告/维护检查清单.md
  • docs/总索引与导航/创游世界知识库总导航.md

参与维护

发现文档问题?

你可以编辑页面、提交反馈,或复制链接给维护者,帮助这个资料库继续变好。

由 Azek431 整理与维护 | 基于 MIT 许可证开源