一、前期准备规范
1.1 工具准备
直接按以下清单准备工具,所有工具均为免费可直接获取:
1.2 档案预处理要求
预处理需逐个完成以下步骤,禁止跳过:
- 拆除装订物:拆除所有金属钉、线装装订,避免扫描产生阴影;破损纸张先用透明胶带补边,防止扫描卡纸
- 分类排序:按照「年度-机构-保管期限」三级分类排序,每个案卷在右下角标记页码,手写打印均可
- 涉密标注:将涉密档案单独分拣,单独加工存储,全程禁止接入外网处理
二、核心加工流程规范
2.1 扫描参数设置规范
直接套用以下参数,无需自行调整:
- 分辨率:普通文书档案统一设为300dpi,工程图纸档案设为400dpi
- 格式与压缩:黑白文档用TIFF格式,采用CCITT G4压缩;彩色红头文件、照片用JPEG格式,压缩比设为1:10
- 文件命名:统一按照「档号-页码」规则命名,例如「2023-WS-0012-003」,禁止使用中文、特殊字符命名
2.2 图像处理操作规范
扫描完成后逐页处理,按以下步骤操作:
- 纠偏:倾斜角度大于3度的页面必须纠正,IrfanView操作:打开图片按Ctrl+Shift+L即可自动纠偏,手动微调即可
- 去污:清除页面黑点、污痕、多余黑边,必须保留原有印章、手写签字,不得涂抹原有内容
- 清晰度调整:曝光不足的文件伽马值调整为1.2,曝光过度调整为0.8,确保所有字迹清晰可辨认
- 分页:多页合并扫描的文件必须拆分为单页文件,一个页码对应一个独立文件
2.3 OCR识别规范

要求全文检索的档案必须完成OCR识别,遵循以下要求:
- 批量识别:打开天若OCR开源版,选择「批量识别文件夹」,选中处理好的图片目录,输出格式选择TXT,输出到同一目录即可
- 质检要求:整体错字率控制在1%以内,重点修正档号、人名、日期、印章处的识别错误,不影响阅读的标点错误可忽略
- 双层PDF生成:需要可检索PDF的,用IrfanView打开图片,点击另存为选择PDF格式,勾选「包含OCR文本层」导出即可
2.4 数据挂接规范
挂接到档案管理系统按以下流程操作:
- 元数据整理:按照系统要求整理元数据,可直接套用以下模板修改:
| 档号 | 题名 | 年度 | 机构 | 保管期限 | 总页数 | 文件路径 |
| 2023-WS-0012 | XX项目第一季度会议纪要 | 2023 | 办公室 | 永久 | 15 | 2023/WS/2023-WS-0012/ |
- 挂接校验:批量导入后,随机抽查10%的档案,确认元数据与文件对应正确,可正常预览下载,无缺页错页
三、质检与入库规范
必须完成三级质检,合格后方可入库:
- 一级自检:加工人员逐卷检查,检查项包括漏扫错扫、图像清晰度、命名规范、错字率,合格后签字确认
- 二级抽检:负责人抽检比例不低于总卷数的10%,不合格率超过5%的整批退回重加工
- 三级终检:交付前检查存储,要求数据双备份,一份存档案管理系统本地服务器,一份存离线移动硬盘,离线硬盘每半年读取校验一次完整性
四、验收交付标准
满足以下所有要求,即为符合规范的成品:
- 所有文件格式正确,无损坏、加密文件,可在档案管理系统正常检索、预览、下载
- 元数据完整率100%,档号唯一不重复,挂接准确率不低于99.5%
- 图像质量要求:字迹印章清晰可辨,无变形、黑边、漏字,页面倾斜角度不超过1度
- 交付资料包含:完整元数据文件、加工记录、备份清单,可直接导入档案管理系统入库
按以上步骤操作即可产出符合规范要求的数字化档案,全程无额外门槛,可直接落地执行。