一、前期准备(零门槛落地必备物料工具)
1. 硬件物料
需提前准备:平板+自动进稿器双功能扫描仪(支持300DPI彩色扫描)、页码打码器、无酸档案盒、除尘软毛刷、无水酒精棉片、2块4T机械硬盘(做RAID1备份用)。
2. 软件工具(官方正版可直接下载)
- 扫描图像处理工具ImageScan免费版:https://www.imagescan.cn/download
- 国家档案局官方电子档案著录系统V2.0:http://www.saac.gov.cn/xxgk/tzgg/202206/t20220617_148323.htm
- PDF/A格式转换工具Ghostscript开源版:https://www.ghostscript.com/releases/gsdnld.html
- OCR识别工具汉王OCR免费版:https://www.hw99.com/product/ocr.html
3. 前置清点

逐卷核对文书档案的档号、卷内目录、总页数,与案卷备考表信息一致后再开始操作,缺页、破损、手改痕迹需提前在备考表标注清楚。
二、全流程实操步骤(按顺序操作零出错)
1. 文书档案预处理
- 拆卷:必须保留原始装订孔,禁止裁剪档案边缘,全部拆除钉书钉、回形针等金属件,生锈金属件先用酒精棉片擦拭锈迹再拆除,避免污染纸张。
- 分页打码:页码统一打在页面右下角,背面无内容的空白页无需打码,需在对应位置标注“空白页”字样;双面有内容的背面页码打在左下角。
- 除尘晾干:用软毛刷顺着纸张纹理扫去表面浮尘,有轻微污渍的用酒精棉片轻擦,完全晾干后再进入扫描环节。
2. 扫描与图像处理
- 参数设置:分辨率统一设为300DPI,彩色模式,存储格式默认导出为PDF/A-1a格式,不符合格式的需用Ghostscript批量转换,可直接复制以下命令执行:
```
gs -dPDFA -dBATCH -dNOPAUSE -sProcessColorModel=DeviceRGB -sDEVICE=pdfwrite -sPDFACompatibilityPolicy=1 -sOutputFile=转换后文件.pdf 待转换文件.pdf
```
- 扫描操作:80g及以下薄纸用平板扫描,100g及以上厚纸可用自动进稿器,每扫描20页抽查1张清晰度,漏扫、歪斜、模糊的页面立刻重扫。
- 后期处理:用ImageScan批量处理功能一键纠偏、去黑边、去噪点,禁止修改档案原始内容,包括手写批注、原始污渍都不得擦除。
3. 著录与归档存储
- 著录填写:打开国家档案局电子档案著录系统,必填项100%填写,包括档号、题名、责任者、成文日期、页数、保管期限,成文日期必须用8位阿拉伯数字,如20240520,不得使用“2024年5月”等模糊格式。
- 批量挂接:从系统导出CSV格式导入模板,按以下示例填写后批量导入,自动完成电子文件与著录项的绑定:
```
档号,题名,责任者,成文日期,页数,保管期限,文件路径
D001-2024-001,2024年第一季度工作汇报,行政部,20240331,15,30,./D001-2024-001.pdf
```
注意所有逗号必须为英文逗号,字段长度不得超过系统限制(档号≤32位,题名≤200位)。
- 合规校验:点击系统“四性检测”功能(真实性、完整性、可用性、安全性),检测不通过的根据报告提示修正,比如格式错误重新转PDF/A,著录空项补填内容。
- 多端存储:本地存储用2块4T机械硬盘做RAID1实时备份,异地存储用政务云档案专区,禁止存储在百度云、阿里云个人盘等第三方公共云盘。
三、常见问题排查与技术支持要点
1. 扫描环节问题
- 薄纸卡纸:在自动进稿器下方垫1张硬A4纸,把进纸速度调低到10页/分钟即可解决。
- OCR识别准确率低:把扫描分辨率临时调到400DPI,用汉王OCR的印刷体识别模式即可提升准确率到99%以上。
2. 著录环节问题
- 批量导入失败:检查CSV文件是否存在中文逗号、特殊字符,删除后重新导入即可。
- 四性检测不通过:优先排查文件格式是否为PDF/A-1a,其次检查著录项是否有和原始档案不一致的内容。
3. 长期运维技术支持
- 每季度做1次全量数据校验,对比2块RAID硬盘的文件MD5值,Windows系统执行命令:
certutil -hashfile 文件名.pdf MD5,Linux/Mac系统执行命令:md5 文件名.pdf,MD5值不一致的立刻用备份文件替换。
- 每1年做1次全量数据迁移,把旧硬盘的数据完整拷贝到新硬盘,避免硬盘老化导致数据丢失。
四、最终合规检查清单
- 所有扫描件分辨率≥300DPI,格式为PDF/A-1a
- 著录必填项100%填写准确,无空项、错项
- 四性检测通过率100%
- 数据至少有2份本地离线备份、1份异地备份
- 所有操作记录已录入系统操作日志,可追溯