Skip to content
写作:待补充更新:2026-05-16字数:—阅读:—维护:Azek431

OCR 资料总览与完整化现状

本文件回答一个核心问题:当前 docs/OCR资料/ 这套 OCR 子库,已经做到了哪里、还差什么、下一步最该先补什么。

统计口径说明:本文提到的截图数量,如无特别声明,默认指历史 OCR 整理或此前盘点记录中的 .jpg 主图规模,不把 .hwbk 备份文件计入"主图数量"。本轮快照未列出可直接 OCR 的原图文件,后续若原图恢复,应重新统计实际文件数量。

它不是新的 OCR 原文归档,而是 OCR 层的“总览 + 阶段判断 + 推进策略说明”。


快速结论

  • 脚本界面截图:最接近完整,已经具备继续逐号完善的价值
  • 官方教程截图:主题入口强,但逐页覆盖不足
  • 引擎更新截图:版本主线较完整,主要缺口在补证与互链
  • 映射层:框架已成,但还没覆盖全部编号
  • 未识别与残缺层:已形成问题清单,但仍需继续回扫原图和相邻页

一句话概括当前阶段:

OCR 工程已经完成“骨架型完整化”,正在向“逐图型完整化 + 证据链面板化维护”推进。


1. 当前 OCR 结构总览

目前 docs/OCR资料/ 已形成五层:

1.1 OCR 原文归档层

用于保存截图 OCR 结果、人工纠错和关键词。

  • docs/OCR资料/基础写脚本界面截图转文本.md
  • docs/OCR资料/官方教程截图转文本索引.md
  • docs/OCR资料/引擎更新截图转文本.md

1.2 编号映射层

用于把“截图编号 → 主题 → 文档归属 → 状态”建立可追溯关系。

  • docs/OCR资料/映射表/OCR 图片编号映射表.md

1.3 规则与回链层

用于统一状态词、回链写法和证据使用边界。

  • docs/OCR资料/OCR 状态词与回链规范.md
  • docs/OCR资料/OCR 证据链说明.md
  • docs/OCR资料/OCR 证据使用规范.md
  • docs/OCR资料/OCR 专题回链示例.md

1.4 问题追踪层

用于记录当前仍未完全识别、仅有残片、或需要继续重读的页面。

  • docs/OCR资料/OCR 未识别与残缺清单.md

1.5 总览统筹层

用于把上面几层汇总成一眼能看懂的工程说明。

  • docs/OCR资料/OCR 完整化总表.md
  • docs/OCR资料/OCR 资料总览与完整化现状.md(本文)
  • docs/OCR资料/OCR资料导航.md

2. 三大 OCR 文档的现状

2.1 基础写脚本界面截图 OCR

对应文档

  • docs/OCR资料/基础写脚本界面截图转文本.md

当前状态

  • 已经从“少量代表页”推进到“高价值骨架页大量覆盖”
  • 目录概况中记录:历史整理记录约 63 张截图,主 OCR 文档已记录 63 张样本;本轮目录快照未列出原图,需原图恢复后复核
  • 已逐步补入:组件分类、类型系统、变量作用域、流程控制、动作脚本、地图脚本、系统脚本、基础属性面板、子物体系统、触发时机、调试工具等

当前已经比较完整的部分

  • 添加组件界面
    • 通用 / 专属 / 战斗 / 装置 / 显示 / 交互 / 自定义
  • 自定义组件结构
    • 属性
    • 指令
    • 触发时机
  • 脚本流程控制
    • 判断
    • 循环
    • 跳出循环
    • 跳过本次循环
    • 等待
    • 概率执行
  • 作用域与数据层
    • 局部变量
    • 自身属性
    • 当前地图属性
    • 系统属性
  • 系统级脚本
    • 游戏胜利 / 失败
    • 结束本局
    • 切换地图
    • 地图广播
    • 声音系统
    • 计时器
  • 基础属性面板
    • 坐标 / 缩放 / 尺寸 / 角度 / 颜色 / 透明度 / 所属层 / 父子物体

当前主要缺口

  • 还没做到“每一张脚本截图都有独立编号条目”
  • 部分编号虽然已有概括,但仍属于“待复核”状态
  • 某些连续页还只是主题级归纳,没有完全逐页拆细
  • 文件已经较长,后续可考虑按主题拆分子文档减轻负担

适合下一步补的方向

  1. 把未完全逐号化的脚本截图继续展开
  2. 把“待复核”页变成“已校正”页
  3. 把类型系统、流程控制、事件入口、对象能力等再拆成衍生索引

2.2 官方教程截图 OCR

对应文档

  • docs/OCR资料/官方教程截图转文本索引.md

当前状态

  • 已覆盖多个高价值主题入口
  • 已包括广播、素材、组件、指令与脚本、UI、地图层级、货币、货币条、生命、近战武器、拾取参数等
  • 同时已记录少量“无有效文本页”,避免漏号

当前已经比较完整的部分

  • 广播基础概念
  • 素材与物体区别
  • 素材移动 / 复制 / 文件夹 / 添加组件
  • 组件的定义
    • 属性
    • 指令
    • 事件
  • 指令与脚本的关系
  • UI 三分类
    • 地图UI
    • 操作UI
    • 物体UI
  • 地图层级基础概念
  • 战斗 / 物品 / 经济相关组件
    • 地块组件
    • 道具组件
    • 子弹组件
    • 货币组件
    • 货币条组件
    • 近战武器组件
    • 生命组件
    • 拾取参数

当前主要缺口

  • 文档头部记录的是历史整理口径下的 200+ 张图片规模;本轮当前快照未列出可直接 OCR 的原图,因此不能直接按当前目录逐图补录
  • 武器系统、粒子特效、地图 / UI / 数据类页面仍有较大补档空间;原图恢复后应优先逐图核验这些主题
  • 目前更偏“主题入口索引”,还不是“官方教程逐页 OCR 总档”
  • 部分重复页与补证页还没有系统标记为“重复 / 校对 / 无效 / 待处理”

适合下一步补的方向

  1. 原图恢复后,优先补武器系统剩余页
  2. 原图恢复后,优先补粒子特效与显示类剩余页
  3. 原图恢复后,优先补地图 / UI / 数据关系页
  4. 在现有 OCR 文档内,先给更多已入档编号增加状态标签:已入档 / 无有效文本 / 疑似重复页 / 待复核 / 待处理

2.3 引擎更新截图 OCR

对应文档

  • docs/OCR资料/引擎更新截图转文本.md

当前状态

  • 核心版本主线已经比较清晰
  • 已覆盖 4.54.0、4.52.60、4.52.54、4.52.1、4.48.3、4.45.30、4.45.27、4.45.19、4.45.1、4.43.24、4.40.17、4.40.5 等重要节点
  • 已能支撑版本演进类问答与专题分析

当前已经比较完整的部分

  • 联机 UI 演进线
    • 旧 UI 20 FPS 同步瓶颈
    • 新 UI 本地化执行
    • 上传并等待
    • 当前UI 访问方式变化
  • 数据类型升级线
    • 结构体
    • 单选值公共化
    • 向量点乘 / 叉乘
    • 数字转文本 / 对数
  • 音频系统升级线
    • 预加载 BGM
    • 淡入 / 变调
    • 声音实例
  • 编辑器工作流优化线
    • 选择素材文件夹显示
    • 内置素材
    • 自动保存并试玩
    • 节点树查看子物体
  • 调试与协作线
    • 逐行 Debug 进入调用
    • 调用栈
    • 共创多人编辑

当前主要缺口

  • 还可以进一步做到“版本号 → 截图编号 → 功能点 → 专题文档”的完整链路
  • 个别版本仍有补证空间,不一定所有页面都已纳入
  • 与专题文档的反向链接还不够密

适合下一步补的方向

  1. 给每个版本再做更完整的截图编号补证
  2. 标准化版本页结构:新增 / 修复 / 变动 / 影响
  3. 把 OCR 证据和引擎更新专题文档更紧密互链

3. 映射表的现状

对应文档

  • docs/OCR资料/映射表/OCR 图片编号映射表.md

当前作用

它已经不只是附表,而是在承担 OCR 工程的编号追踪职责。

当前已经完成的部分

  • 已录入官方教程部分编号
  • 已录入引擎更新部分编号
  • 已对脚本截图完成多批“逐号细化”
  • 已把部分截图和专题文档建立连接

当前主要缺口

  • 还不是完整编号清单
  • 现有脚本 OCR 文档里仍有一批编号需要继续核对映射表回链与状态词,而不是简单视为未录入
  • 官方教程的大量历史截图编号仍未逐号列出状态;原图恢复后需要重新核验实际文件与 OCR 条目
  • 某些编号虽然进了 OCR 文档,但映射表里还没建立回链

它在完整化里的意义

当映射表足够完整时,就能做到:

  • 从主题反查截图编号
  • 从截图编号反查归档位置
  • 标记哪些页已整理、哪些页没整理
  • 降低后续重复 OCR / 漏号 / 漏主题的问题

4. 问题清单层的现状

对应文档

  • docs/OCR资料/OCR 未识别与残缺清单.md

当前作用

它负责集中记录:

  • 无有效文本页
  • 只识别到标题或少量残片的页
  • 已有主体但细节残缺、仍需人工清洗的页

当前价值

  • 能避免“其实已经发现问题页,但后来忘了补”
  • 能把 OCR 工程从“只记录成功识别结果”升级为“连失败与残缺也有追踪”
  • 能明确下一步应该先回扫哪一批高风险页

当前主要缺口

  • 仍偏人工整理,不是完整编号覆盖清单
  • 某些页虽然问题已发现,但还没和映射表形成双向互链
  • 尚未形成按来源目录、问题等级、主题簇的多维视图

5. 现在的 OCR 完整度怎么理解

如果只看“有没有文章”,现在已经不少。

但如果严格看“OCR 是否完整”,更准确的判断应该是:

5.1 脚本界面截图

  • 状态:编号总量已明确,重点页大量入档,正在从半完整向近完整推进

5.2 官方教程截图

  • 状态:主题入口覆盖良好,并开始补深页,但距离逐图完整还有明显距离

5.3 引擎更新截图

  • 状态:版本主线较完整,且已开始向旧版本追补证据

5.4 映射层

  • 状态:框架已成,但仍未覆盖全部编号

5.5 问题页追踪层

  • 状态:已建立,但仍需继续把“发现问题”升级为“解决问题”

所以整体更适合描述为:

当前 OCR 部分已经完成了“骨架型完整化”,正在向“逐图型完整化 + 证据链工程化”推进。


6. 下一步最合理的推进顺序

如果目标是把 OCR 做得更完整,而不是只继续零散补文档,建议按下面顺序推进。

6.1 第一优先级:继续细化脚本截图编号

原因:

  • 脚本截图体量相对可控
  • 已有基础最好
  • 对整个知识库的结构价值最高
  • 做完后能明显提升“可检索、可验证、可教学”程度

建议动作:

  • 把未逐号展开的脚本截图继续补到映射表
  • 把“待复核”页尽量消化掉
  • 视情况拆分 OCR 子文档

6.2 第二优先级:批量推进官方教程截图

原因:

  • 体量最大
  • 当前最容易出现“主题有了、逐页还没有”的情况
  • 对新手知识体系帮助很大

建议动作:

  • 先按主题簇推进,而不是无脑逐号
  • 优先武器 / UI / 地图 / 数据 / 粒子
  • 每补一个主题簇,就同步回填映射表
  • 遇到难识别页时,同时回写到问题清单

6.3 第三优先级:完善引擎更新的版本证据链

原因:

  • 当前主线已比较清楚
  • 继续补收益更偏“证据严谨度增强”
  • 紧迫性低于脚本截图和官方教程

建议动作:

  • 对已有版本补完整截图号
  • 给专题文档回指 OCR 证据页
  • 逐步形成更新时间线型结构

7. 当前最适合增加的维护动作

不是继续胡乱加内容,而是做下面这些工程动作:

  1. 给三类 OCR 文档补“已入档编号范围 / 未入档范围”
  2. 给映射表补统一状态标签,并严格统一用词
    • 已入档
    • 已入档(待复核)
    • 无有效文本
    • 疑似重复页
    • 备份文件(.hwbk
    • 待处理
  3. 在 OCR 原文里反向标出对应专题文档
  4. 把问题清单和映射表建立双向引用
  5. 逐步把“重复校对页”与“主证据页”区分开
  6. 在总索引里明确 OCR 层是原始证据层,专题层是解释层
  7. 给高价值专题补“来源截图编号 + OCR 文档 + 映射表”三段式回链

8. 对“完整”的标准

当前更适合采用下面这套标准:

接近完整时,应满足

  • 三类截图均有编号清单
  • 每张有效截图至少有一条 OCR 条目或无效说明
  • 每个重点主题都能反查到截图编号
  • 映射表能覆盖主要已整理编号
  • 总览能说明当前完成度与剩余工作
  • 问题页能被持续追踪,而不是只在识别失败时提一次

不必强求

  • 不一定每张图都逐字逐句完全无误
  • 不一定所有重复页都全文展开
  • 不一定所有截图都必须成为独立专题

重点是: 可检索、可回溯、可判断状态。


9. 当前结论

  • 当前 docs/OCR资料/ 目录已经形成:OCR 原文归档、映射表、规则文档、问题清单、完整化总表、总览说明、导航页等多层结构
  • 其中:
    • docs/OCR资料/OCR 状态词与回链规范.md 负责统一状态词与三段式回链规则
  • docs/OCR资料/OCR 完整化总表.md 负责给出三大目录的总量、现状、优先级与执行要求
  • docs/OCR资料/OCR 资料总览与完整化现状.md 负责解释“现在做到哪、离完整还差哪”
  • docs/OCR资料/OCR 未识别与残缺清单.md 负责记录仍需回扫和清洗的问题页
  • 因此 OCR 工程已经从“零散补 OCR”进入“有规范、有总表、有问题追踪、有回链标准的面板化维护阶段”。

10. 后续自我优化方向

本文以后不只是说明文,还应该继续升级成: OCR 工程总面板。

后续可继续补:

  • 更明确的编号段统计
  • 更清晰的主题完成率说明
  • 更可视化的版本覆盖表
  • 问题页处理前后对比区
  • 与映射表的双向引用清单

参与维护

发现文档问题?

你可以编辑页面、提交反馈,或复制链接给维护者,帮助这个资料库继续变好。

由 Azek431 整理与维护 | 基于 MIT 许可证开源