前期准备工作
工具准备(全本地合规,无数据泄露风险)
- 扫描仪:单位现有A3幅面扫描仪即可,富士通ScanSnap系列驱动直接下载:
https://www.fujitsu.com/cn/products/computing/peripherals/scanners/support/downloads/
- 本地OCR工具:天若开源免费OCR,直接下载解压可用:
https://github.com/AnyNever/SFFreeOCR/releases/download/v4.0/SFFreeOCR_v4.0.7z
- 批量重命名工具:ReNamer开源免费工具,官方下载地址:
https://www.den4b.com/downloads/renamer
资料准备
提前从本单位档案管理部门获取两个资料:本单位正式发布的《档案分类编号规则》,以及待数字化纸质档案的Excel清单,清单必须包含「档号、题名、年度、机构、保管期限」五个必填字段,每一行对应一份档案。
第一步:纸质档案预处理
这一步是避免后续扫描出错的核心,必须严格执行:
- 拆卷:严禁直接裁切胶装档案,必须用拆卷刀慢慢分离胶装层,取出内页,线装档案拆线时不要拉扯原件,所有金属物(订书钉、回形针、钉书针)必须全部取出,防止刮花扫描仪玻璃。
- 修裱:褶皱纸张用平整重物压放24小时后再扫描,破损纸张用透明胶带在纸张背面修补,严禁遮挡正面字迹,大幅纸张超过A3的要按照档案规范折叠,做好标记。
- 核对:按照提前拿到的Excel档案清单排序,核对每份档案的页码,错页、缺页、漏页立刻登记,上报档案管理部门补正后再进入下一个流程。
第二步:批量扫描操作
扫描参数必须符合国企档案长期存储的合规要求,统一设置为:
- 分辨率:固定300DPI,不得低于200DPI,保证放大后字迹清晰可辨。
- 存储格式:同时输出TIFF格式(用于长期归档存储)和JPEG格式(用于预览),符合国家档案数字化标准要求。
- 色彩模式:纯文字档案用1位双色模式,带有彩色印章、照片、图纸的档案用24位真彩色模式。
- 临时命名:扫描单页文件临时命名规则为「档号_页码」,例如「01-2023-办公室-永久-0012_01」,方便后续整理。
操作细节:每扫描完一份档案,立刻和原件核对页码、清晰度,歪页、模糊页立刻重扫,不要全部扫描完成后再返工,节省时间。
第三步:OCR文字识别与校对

因为要求数据不流出单位,所以用本地开源OCR处理,具体操作步骤:
- 解压打开天若OCR后,进入「设置」页面,关闭所有云端识别选项,勾选「批量识别后保存同名TXT到同路径」,保存设置,确保所有数据都在本地处理,符合数据安全要求。
- 选择「批量识别文件夹」功能,导入扫描得到的所有JPEG预览文件,点击开始识别,等待批量处理完成。
- 校对环节:不需要逐字校对所有内容,仅校对档号、题名、日期、公章处的关键信息,文字整体错误率低于1%即可通过,大幅提升处理效率,修改后直接保存TXT文件即可。
第四步:批量整理与标准化命名
用ReNamer实现批量重命名,零代码操作:
- 打开ReNamer新建规则,选择「从Excel导入名称」规则,导入提前准备好的档案Excel清单,第一列对应原扫描文件名,第二列对应标准化的「档号_题名」名称。
- 设置规则:TIFF归档文件、JPEG预览文件、TXT文本文件统一使用同一个标准化名称,例如「01-2023-办公室-永久-0012_XX单位2023年度党委会议纪要」。
- 先点击预览确认所有命名匹配正确,没有错配、漏配后,再点击执行批量重命名。
第五步:挂接质检与备份归档
系统挂接与质检
登录本单位档案管理系统,选择批量导入功能,开启「按档号自动匹配挂接」,不需要手动逐个匹配,导入完成后按照三级质检标准检查:
- 一级质检:抽查10%的档案,检查扫描图像清晰度、完整性,有无缺页歪页。
- 二级质检:抽查5%的档案,检查OCR文字可检索性,关键信息是否正确。
- 三级质检:全量检查所有档案的命名、挂接关系,确认没有错误。
合规备份
按照国企档案安全要求,必须完成三地备份:
- 在线备份:存储在单位档案管理系统服务器,开启对应权限控制。
- 本地离线备份:将所有档案刻录到不可改写的蓝光光盘,一式两份,存放在单位档案库房。
- 异址备份:将加密压缩后的档案存储在单位异灾备份中心的加密硬盘,每半年抽查一次读取可用性。