OCR 证据使用规范
一句话摘要:这是一份面向维护者、研究者和 AI 检索系统的 OCR 证据使用规则页,目的不是让所有文档都堆原文,而是让"截图证据 → OCR 文本 → 专题结论"形成可回查、可降级、可维护的链路。
适合对象:维护者、研究者、AI 检索系统、需要查证据的进阶玩家 当前状态:已整理 可信度:
[已确认]关联文档:docs/OCR资料/OCR资料导航.md、docs/OCR资料/OCR 证据链说明.md、docs/OCR资料/映射表/OCR 图片编号映射表.md
这页解决什么问题
这页主要解决下面几类常见问题:
- 什么情况下应该给专题页补 OCR 回链
- OCR 原文应该怎么引用才不显得杂乱
- OCR 有错字时该怎么处理
- 什么时候能写成“已确认”,什么时候只能写“高可信推断”
- 维护时怎样快速检查一页是否已经具备最小证据链
一、先分清 4 层内容
在这个资料库里,建议始终把下面 4 层区分开:
原始截图层
- 是最底层证据源
- 价值最高,但不方便全文检索
OCR 文本层
- 是把截图转成可搜索文本的中间层
- 方便引用,但可能存在识别误差
编号映射层
- 用来把图片编号、OCR 文档、专题文档串起来
- 是最关键的追踪层
专题归纳层
- 是读者最常看的结论页
- 不应假装自己就是原始证据,而应能回查到底层
二、推荐的最小回链格式
高价值专题页,至少建议补下面这三项:
- 来源截图编号:
若干编号 - 对应 OCR 文档:
某个 OCR 转写页路径 - 对应映射表:
docs/OCR资料/映射表/OCR 图片编号映射表.md
推荐写法示例:
- 来源截图编号:
105506, 105510, 110352 - 对应 OCR 文档:
docs/OCR资料/引擎更新截图转文本.md - 对应映射表:
docs/OCR资料/映射表/OCR 图片编号映射表.md
如果暂时拿不准编号是否精确齐全,也可以先写成“已定位到 OCR 文档,但编号仍待继续细化”,不要假装已经完整。
三、什么页面必须优先补 OCR 回链
优先级建议如下:
第一优先级
- 结论密度高的专题页
- 会被频繁引用的总览页
- 涉及版本变化、联机、UI、广播、数据结构的核心页
第二优先级
- 项目设计类专题页
- 容易被误读为“官方定论”的归纳页
- 对外展示时高频使用的解释页
第三优先级
- 导航页
- 路线页
- 维护说明页
说明:
- 导航页通常不需要逐段补证据编号
- 但导航页应该把读者引向有证据链的正文页
四、如何处理 OCR 错字
OCR 文本不是圣旨,它只是中间层。
建议规则:
- 如果 OCR 文本有明显错字,但结合上下文可判断原意,可以在专题页中使用规范术语表达。
- 如果 OCR 文本含义模糊,不能直接强行下结论,应降级为
[待验证]。 - 如果 OCR 错字会影响关键判断,优先回看截图语境,而不是只看转写文本。
不要做的事:
- 不要把 OCR 错字直接当成正式术语写进术语表
- 不要把模糊文本硬写成“引擎已明确说明”
- 不要因为 OCR 看起来像某个词,就跳过截图核对
五、结论等级怎么跟证据层对应
可以标成 [已确认] 的情况
通常至少满足以下之一:
- 官方截图或更新说明直接明确写出
- 多张截图与 OCR 原文能稳定互相印证
- 文档中的说法基本属于“转述原文”,而不是额外推演
更适合标成 [高可信推断] 的情况
通常是:
- 多来源材料指向同一结构规律
- 但原始资料没有逐字明确说到这句话
- 或专题结论里包含了整理者的抽象归纳
应标成 [待验证] 的情况
通常是:
- 只有零碎截图线索
- OCR 本身有歧义
- 不同版本间可能存在差异
- 还缺足够案例或实测支持
六、专题页里推荐怎么放证据说明
推荐放在头部元数据区附近,或放在文末“证据与来源”小节。
头部简式写法
- 来源类型:官方更新 + 官方教程 + OCR 转写
- 证据等级:多来源交叉归纳
- 来源截图编号:
105506, 105510, 110352 - 对应 OCR 文档:
docs/OCR资料/引擎更新截图转文本.md - 对应映射表:
docs/OCR资料/映射表/OCR 图片编号映射表.md
文末详式写法
可增加:
- 哪个结论主要来自哪类材料
- 哪些部分是直接证据
- 哪些部分是归纳解释
- 哪些地方仍需要补更多截图
七、维护时的快速判断标准
如果一页满足下面大部分条件,就已经具备“最小可回查性”:
- 有清晰的一句话摘要
- 有当前状态和可信度
- 有来源类型说明
- 有至少一个 OCR 文档回链
- 有映射表入口
- 关键结论区分了“已确认 / 高可信推断 / 待验证”
八、常见错误
错误 1:把所有原文都塞进专题正文
后果:
- 阅读体验会很差
- 结论层和证据层混在一起
错误 2:只写“来源于 OCR”但不给路径
后果:
- 实际上无法回查
- AI 和维护者都很难继续接力
错误 3:有 OCR 文本就直接写成已确认
后果:
- 容易忽略 OCR 误识别和上下文缺失
错误 4:专题里大量强结论,但没有编号或映射入口
后果:
- 读者无法判断哪些是原文,哪些是整理者推演
九、推荐维护顺序
- 先给高价值专题补“对应 OCR 文档”
- 再补“来源截图编号”
- 再补“对应映射表”
- 最后再细化每段结论的等级说明
这样做比一开始追求逐段精确编号更稳,也更容易持续推进。
十、关联阅读
docs/OCR资料/OCR资料导航.mddocs/OCR资料/OCR 证据链说明.mddocs/维护与报告/维护检查清单.mddocs/总索引与导航/创游世界知识库总导航.md
