前期准备工作
工具与物料准备
你需要提前准备以下工具,满足保定档案数字化接收要求:
- 硬件:支持A3幅面的扫描仪,要求扫描分辨率≥300DPI,同时具备馈纸批量扫描和平板扫描功能,满足普通档案和老旧不规则档案扫描需求
- 软件:批量OCR识别工具,直接下载开源免费的天若OCR:
https://gitee.com/taurandat/tianruoocr-opensource,解压即可使用无需安装;PDF压缩工具使用免费在线工具:https://www.ilovepdf.com/zh-cn/compress-pdf
- 物料:美工刀、无酸胶带、软毛刷,用于处理破损档案和去除胶水残留
实体档案预整理
按照保定市档案分类要求完成预整理,步骤如下:
- 文书档案按年度-机构-保管期限分类,项目档案按项目-单项工程分类,会计、声像档案按对应规范分类
- 拆除所有档案的金属装订物,包括订书钉、回形针、装订针,避免损伤扫描仪
- 对破损页面用无酸胶带修补,文字被装订边压住的档案,拆开后展平,扫描完成后再重新装订,避免漏扫文字
- 超大幅面纸张按规范折叠,折叠时露出档号和标题位置,不遮挡正文内容
标准化数字化加工流程
1. 扫描参数设置与操作
扫描参数必须严格按要求设置,不符合要求会导致移交被退回:
- 分辨率:固定设置为300DPI,老旧褪色档案调整为400DPI
- 色彩模式:红头文件、彩色图纸、带印章的档案必须用彩色模式扫描,黑白文字档案可用灰度模式,纯文字打印档案可用黑白模式
- 命名规则:严格遵循保定档案接收要求,单份档案文件名格式为:全宗号-年度-机构代号-保管期限代号-件号,示例:01-2023-03-Y-0015,其中Y代表永久,J代表30年,S代表10年
扫描时保证页面居中对齐,歪斜角度不超过1度,扫描后即时检查是否缺页、漏扫。
2. 图像处理与PDF合并
扫描完成后做基础图像处理:
- 自动纠偏,裁剪扫描产生的多余黑边,清除页面污渍
- 将同一份档案的所有页面按顺序合并为单个PDF文件,不得拆分多份存储
- 检查PDF页面顺序,确保和实体档案顺序一致,错序立即调整
3. OCR全文识别

保定要求移交的电子档案必须全文可检索,操作步骤:
- 打开下载好的天若OCR开源版,点击顶部菜单栏「功能」→「批量PDF识别」
- 导入所有合并好的图片PDF,设置输出路径,勾选「输出可检索PDF」选项
- 点击开始识别,等待批量处理完成即可,该工具识别准确率可达95%以上,满足档案要求
质检与合规调整
一级加工自检
加工完成后逐份检查以下项目,全部合格才能进入下一环:
- 文件名是否符合要求,无错号、缺项,命名格式错误立即修改
- 扫描清晰度是否达标,无模糊、缺字、漏页情况
- PDF是否可正常打开,全文可检索,识别错误率超过5%的手动修正错误文字
- 单份PDF大小超过50M的,用前文给出的在线压缩工具做无损压缩,压缩后清晰度不下降
二级交叉质检
由另一名加工人员对全部档案做100%交叉复检,不合格档案打回重加工,确保整体合格率100%,符合保定市档案馆接收标准。
数据封装与移交归档
数据封装规范
按照要求整理目录和文件夹:
- 按分类层级建立文件夹,根文件夹命名为「全宗号-年度-档案类型」,下级文件夹按保管期限拆分
- 生成标准档案目录Excel,表头可直接复制使用:全宗号、目录号、年度、机构代码、件号、责任者、文号、题名、日期、保管期限、页数、备注
- 将目录Excel放在根文件夹根目录,所有PDF按件号放入对应下级文件夹
移交与入库
如果是移交保定市档案馆,需将完整数据拷贝至2块全新的3.5寸移动硬盘,一块移交档案馆,一份单位自留备份;如果是单位内部归档,将目录信息导入单位档案管理系统,关联对应电子PDF文件,完成入库即可。
常见问题解决
- 超大图纸:实体按规范折叠,电子档保留完整原始幅面,不得裁剪,文件名后缀加「-图纸」标识
- 老旧档案字迹模糊:扫描时调整为400DPI灰度扫描,可大幅提升清晰度,满足识别要求
- 涉密档案:按照保定保密管理要求,必须在单位内部涉密网环境加工,不得外传实体和电子数据