OCR 资料总览与完整化现状
本文件回答一个核心问题:当前 docs/OCR资料/ 这套 OCR 子库,已经做到了哪里、还差什么、下一步最该先补什么。
统计口径说明:本文提到的截图数量,如无特别声明,默认指历史 OCR 整理或此前盘点记录中的
.jpg主图规模,不把.hwbk备份文件计入"主图数量"。本轮快照未列出可直接 OCR 的原图文件,后续若原图恢复,应重新统计实际文件数量。
它不是新的 OCR 原文归档,而是 OCR 层的“总览 + 阶段判断 + 推进策略说明”。
快速结论
- 脚本界面截图:最接近完整,已经具备继续逐号完善的价值
- 官方教程截图:主题入口强,但逐页覆盖不足
- 引擎更新截图:版本主线较完整,主要缺口在补证与互链
- 映射层:框架已成,但还没覆盖全部编号
- 未识别与残缺层:已形成问题清单,但仍需继续回扫原图和相邻页
一句话概括当前阶段:
OCR 工程已经完成“骨架型完整化”,正在向“逐图型完整化 + 证据链面板化维护”推进。
1. 当前 OCR 结构总览
目前 docs/OCR资料/ 已形成五层:
1.1 OCR 原文归档层
用于保存截图 OCR 结果、人工纠错和关键词。
docs/OCR资料/基础写脚本界面截图转文本.mddocs/OCR资料/官方教程截图转文本索引.mddocs/OCR资料/引擎更新截图转文本.md
1.2 编号映射层
用于把“截图编号 → 主题 → 文档归属 → 状态”建立可追溯关系。
docs/OCR资料/映射表/OCR 图片编号映射表.md
1.3 规则与回链层
用于统一状态词、回链写法和证据使用边界。
docs/OCR资料/OCR 状态词与回链规范.mddocs/OCR资料/OCR 证据链说明.mddocs/OCR资料/OCR 证据使用规范.mddocs/OCR资料/OCR 专题回链示例.md
1.4 问题追踪层
用于记录当前仍未完全识别、仅有残片、或需要继续重读的页面。
docs/OCR资料/OCR 未识别与残缺清单.md
1.5 总览统筹层
用于把上面几层汇总成一眼能看懂的工程说明。
docs/OCR资料/OCR 完整化总表.mddocs/OCR资料/OCR 资料总览与完整化现状.md(本文)docs/OCR资料/OCR资料导航.md
2. 三大 OCR 文档的现状
2.1 基础写脚本界面截图 OCR
对应文档
docs/OCR资料/基础写脚本界面截图转文本.md
当前状态
- 已经从“少量代表页”推进到“高价值骨架页大量覆盖”
- 目录概况中记录:历史整理记录约 63 张截图,主 OCR 文档已记录 63 张样本;本轮目录快照未列出原图,需原图恢复后复核
- 已逐步补入:组件分类、类型系统、变量作用域、流程控制、动作脚本、地图脚本、系统脚本、基础属性面板、子物体系统、触发时机、调试工具等
当前已经比较完整的部分
- 添加组件界面
- 通用 / 专属 / 战斗 / 装置 / 显示 / 交互 / 自定义
- 自定义组件结构
- 属性
- 指令
- 触发时机
- 脚本流程控制
- 判断
- 循环
- 跳出循环
- 跳过本次循环
- 等待
- 概率执行
- 作用域与数据层
- 局部变量
- 自身属性
- 当前地图属性
- 系统属性
- 系统级脚本
- 游戏胜利 / 失败
- 结束本局
- 切换地图
- 地图广播
- 声音系统
- 计时器
- 基础属性面板
- 坐标 / 缩放 / 尺寸 / 角度 / 颜色 / 透明度 / 所属层 / 父子物体
当前主要缺口
- 还没做到“每一张脚本截图都有独立编号条目”
- 部分编号虽然已有概括,但仍属于“待复核”状态
- 某些连续页还只是主题级归纳,没有完全逐页拆细
- 文件已经较长,后续可考虑按主题拆分子文档减轻负担
适合下一步补的方向
- 把未完全逐号化的脚本截图继续展开
- 把“待复核”页变成“已校正”页
- 把类型系统、流程控制、事件入口、对象能力等再拆成衍生索引
2.2 官方教程截图 OCR
对应文档
docs/OCR资料/官方教程截图转文本索引.md
当前状态
- 已覆盖多个高价值主题入口
- 已包括广播、素材、组件、指令与脚本、UI、地图层级、货币、货币条、生命、近战武器、拾取参数等
- 同时已记录少量“无有效文本页”,避免漏号
当前已经比较完整的部分
- 广播基础概念
- 素材与物体区别
- 素材移动 / 复制 / 文件夹 / 添加组件
- 组件的定义
- 属性
- 指令
- 事件
- 指令与脚本的关系
- UI 三分类
- 地图UI
- 操作UI
- 物体UI
- 地图层级基础概念
- 战斗 / 物品 / 经济相关组件
- 地块组件
- 道具组件
- 子弹组件
- 货币组件
- 货币条组件
- 近战武器组件
- 生命组件
- 拾取参数
当前主要缺口
- 文档头部记录的是历史整理口径下的 200+ 张图片规模;本轮当前快照未列出可直接 OCR 的原图,因此不能直接按当前目录逐图补录
- 武器系统、粒子特效、地图 / UI / 数据类页面仍有较大补档空间;原图恢复后应优先逐图核验这些主题
- 目前更偏“主题入口索引”,还不是“官方教程逐页 OCR 总档”
- 部分重复页与补证页还没有系统标记为“重复 / 校对 / 无效 / 待处理”
适合下一步补的方向
- 原图恢复后,优先补武器系统剩余页
- 原图恢复后,优先补粒子特效与显示类剩余页
- 原图恢复后,优先补地图 / UI / 数据关系页
- 在现有 OCR 文档内,先给更多已入档编号增加状态标签:已入档 / 无有效文本 / 疑似重复页 / 待复核 / 待处理
2.3 引擎更新截图 OCR
对应文档
docs/OCR资料/引擎更新截图转文本.md
当前状态
- 核心版本主线已经比较清晰
- 已覆盖 4.54.0、4.52.60、4.52.54、4.52.1、4.48.3、4.45.30、4.45.27、4.45.19、4.45.1、4.43.24、4.40.17、4.40.5 等重要节点
- 已能支撑版本演进类问答与专题分析
当前已经比较完整的部分
- 联机 UI 演进线
- 旧 UI 20 FPS 同步瓶颈
- 新 UI 本地化执行
- 上传并等待
- 当前UI 访问方式变化
- 数据类型升级线
- 结构体
- 单选值公共化
- 向量点乘 / 叉乘
- 数字转文本 / 对数
- 音频系统升级线
- 预加载 BGM
- 淡入 / 变调
- 声音实例
- 编辑器工作流优化线
- 选择素材文件夹显示
- 内置素材
- 自动保存并试玩
- 节点树查看子物体
- 调试与协作线
- 逐行 Debug 进入调用
- 调用栈
- 共创多人编辑
当前主要缺口
- 还可以进一步做到“版本号 → 截图编号 → 功能点 → 专题文档”的完整链路
- 个别版本仍有补证空间,不一定所有页面都已纳入
- 与专题文档的反向链接还不够密
适合下一步补的方向
- 给每个版本再做更完整的截图编号补证
- 标准化版本页结构:新增 / 修复 / 变动 / 影响
- 把 OCR 证据和引擎更新专题文档更紧密互链
3. 映射表的现状
对应文档
docs/OCR资料/映射表/OCR 图片编号映射表.md
当前作用
它已经不只是附表,而是在承担 OCR 工程的编号追踪职责。
当前已经完成的部分
- 已录入官方教程部分编号
- 已录入引擎更新部分编号
- 已对脚本截图完成多批“逐号细化”
- 已把部分截图和专题文档建立连接
当前主要缺口
- 还不是完整编号清单
- 现有脚本 OCR 文档里仍有一批编号需要继续核对映射表回链与状态词,而不是简单视为未录入
- 官方教程的大量历史截图编号仍未逐号列出状态;原图恢复后需要重新核验实际文件与 OCR 条目
- 某些编号虽然进了 OCR 文档,但映射表里还没建立回链
它在完整化里的意义
当映射表足够完整时,就能做到:
- 从主题反查截图编号
- 从截图编号反查归档位置
- 标记哪些页已整理、哪些页没整理
- 降低后续重复 OCR / 漏号 / 漏主题的问题
4. 问题清单层的现状
对应文档
docs/OCR资料/OCR 未识别与残缺清单.md
当前作用
它负责集中记录:
- 无有效文本页
- 只识别到标题或少量残片的页
- 已有主体但细节残缺、仍需人工清洗的页
当前价值
- 能避免“其实已经发现问题页,但后来忘了补”
- 能把 OCR 工程从“只记录成功识别结果”升级为“连失败与残缺也有追踪”
- 能明确下一步应该先回扫哪一批高风险页
当前主要缺口
- 仍偏人工整理,不是完整编号覆盖清单
- 某些页虽然问题已发现,但还没和映射表形成双向互链
- 尚未形成按来源目录、问题等级、主题簇的多维视图
5. 现在的 OCR 完整度怎么理解
如果只看“有没有文章”,现在已经不少。
但如果严格看“OCR 是否完整”,更准确的判断应该是:
5.1 脚本界面截图
- 状态:编号总量已明确,重点页大量入档,正在从半完整向近完整推进
5.2 官方教程截图
- 状态:主题入口覆盖良好,并开始补深页,但距离逐图完整还有明显距离
5.3 引擎更新截图
- 状态:版本主线较完整,且已开始向旧版本追补证据
5.4 映射层
- 状态:框架已成,但仍未覆盖全部编号
5.5 问题页追踪层
- 状态:已建立,但仍需继续把“发现问题”升级为“解决问题”
所以整体更适合描述为:
当前 OCR 部分已经完成了“骨架型完整化”,正在向“逐图型完整化 + 证据链工程化”推进。
6. 下一步最合理的推进顺序
如果目标是把 OCR 做得更完整,而不是只继续零散补文档,建议按下面顺序推进。
6.1 第一优先级:继续细化脚本截图编号
原因:
- 脚本截图体量相对可控
- 已有基础最好
- 对整个知识库的结构价值最高
- 做完后能明显提升“可检索、可验证、可教学”程度
建议动作:
- 把未逐号展开的脚本截图继续补到映射表
- 把“待复核”页尽量消化掉
- 视情况拆分 OCR 子文档
6.2 第二优先级:批量推进官方教程截图
原因:
- 体量最大
- 当前最容易出现“主题有了、逐页还没有”的情况
- 对新手知识体系帮助很大
建议动作:
- 先按主题簇推进,而不是无脑逐号
- 优先武器 / UI / 地图 / 数据 / 粒子
- 每补一个主题簇,就同步回填映射表
- 遇到难识别页时,同时回写到问题清单
6.3 第三优先级:完善引擎更新的版本证据链
原因:
- 当前主线已比较清楚
- 继续补收益更偏“证据严谨度增强”
- 紧迫性低于脚本截图和官方教程
建议动作:
- 对已有版本补完整截图号
- 给专题文档回指 OCR 证据页
- 逐步形成更新时间线型结构
7. 当前最适合增加的维护动作
不是继续胡乱加内容,而是做下面这些工程动作:
- 给三类 OCR 文档补“已入档编号范围 / 未入档范围”
- 给映射表补统一状态标签,并严格统一用词
- 已入档
- 已入档(待复核)
- 无有效文本
- 疑似重复页
- 备份文件(
.hwbk) - 待处理
- 在 OCR 原文里反向标出对应专题文档
- 把问题清单和映射表建立双向引用
- 逐步把“重复校对页”与“主证据页”区分开
- 在总索引里明确 OCR 层是原始证据层,专题层是解释层
- 给高价值专题补“来源截图编号 + OCR 文档 + 映射表”三段式回链
8. 对“完整”的标准
当前更适合采用下面这套标准:
接近完整时,应满足
- 三类截图均有编号清单
- 每张有效截图至少有一条 OCR 条目或无效说明
- 每个重点主题都能反查到截图编号
- 映射表能覆盖主要已整理编号
- 总览能说明当前完成度与剩余工作
- 问题页能被持续追踪,而不是只在识别失败时提一次
不必强求
- 不一定每张图都逐字逐句完全无误
- 不一定所有重复页都全文展开
- 不一定所有截图都必须成为独立专题
重点是: 可检索、可回溯、可判断状态。
9. 当前结论
- 当前
docs/OCR资料/目录已经形成:OCR 原文归档、映射表、规则文档、问题清单、完整化总表、总览说明、导航页等多层结构 - 其中:
docs/OCR资料/OCR 状态词与回链规范.md负责统一状态词与三段式回链规则
docs/OCR资料/OCR 完整化总表.md负责给出三大目录的总量、现状、优先级与执行要求docs/OCR资料/OCR 资料总览与完整化现状.md负责解释“现在做到哪、离完整还差哪”docs/OCR资料/OCR 未识别与残缺清单.md负责记录仍需回扫和清洗的问题页- 因此 OCR 工程已经从“零散补 OCR”进入“有规范、有总表、有问题追踪、有回链标准的面板化维护阶段”。
10. 后续自我优化方向
本文以后不只是说明文,还应该继续升级成: OCR 工程总面板。
后续可继续补:
- 更明确的编号段统计
- 更清晰的主题完成率说明
- 更可视化的版本覆盖表
- 问题页处理前后对比区
- 与映射表的双向引用清单
