前期工具准备
工具清单(全部免费,开箱即用)
- 拍摄/扫描工具:苹果iOS直接用系统自带备忘录,无需下载;安卓下载开源免费OpenScan:https://github.com/OpenScan-org/OpenScan/releases,解压安装即可;有扫描仪的直接用自带扫描驱动,无需额外软件
- 图像优化工具:IrfanView(轻量免费):https://www.irfanview.com/main_download_english.htm
- OCR文字识别工具:SwordsOCR(天若OCR开源版,免安装):https://github.com/AnyNumber/SwordsOCR/releases
- 快速检索工具:Everything(免费本地搜索):https://www.voidtools.com/zh-cn/downloads/
实操步骤(按顺序执行即可)
步骤1:档案预处理
首先整理待数字化的档案,按照以下要求处理:
- 可拆除装订的档案:拆除缝线、胶钉,尽量保证纸张平整,拆除时不要损坏纸张和字迹
- 不可拆除装订的档案(比如线装书、古籍):保持原状,逐页拍摄扫描即可
- 去除纸张表面明显污渍:用软橡皮轻擦干净灰尘和墨迹,破损纸张用透明胶带在背面粘补,保证扫描后字迹清晰
- 按原档案的顺序排列好页码,不要打乱原有顺序
注意:不要对原档案的内容进行涂改,必须保留原始面貌
步骤2:扫描/拍摄获取数字图像
不同设备操作步骤如下:
- 手机拍摄(无扫描仪场景):打开扫描软件,将纸张平放于纯色桌面,保证光线均匀无反光,软件会自动裁剪边缘,拍摄时保证四周至少留1cm空白,分辨率设置为300DPI,仅带彩色印章的档案选择彩色模式,普通黑字档案选择灰度模式,可大幅缩小文件体积
- 扫描仪扫描:设置参数为300DPI,彩色/灰度选择规则同上述,扫描后批量导出为JPG格式图片
步骤3:图像批量优化校正
导出所有图片后,打开IrfanView,按F4打开批量处理窗口,添加所有待处理图片,设置以下参数:
- 勾选「自动校正倾斜角度」
- 强制调整分辨率为300DPI
- 输出格式设为JPG,保存质量设为90%
- 统一输出到新的文件夹,避免覆盖原文件
处理完成后,抽查3-5张图片,确认字迹清晰、角度端正即可,单张图片大小控制在1-2MB,方便后续存储传输。
步骤4:OCR识别转可编辑文字

打开下载好的SwordsOCR,无需安装,直接双击运行,首先进行基础设置:打开设置面板,勾选「识别完成后自动保存txt文件到图片同目录」,识别引擎选择默认的PaddleOCR即可,识别准确率可达95%以上,后续操作步骤:
- 打开处理好的图片,按下软件快捷键F4,框选整个页面内容
- 松开鼠标后自动完成识别,弹出识别结果窗口
- 对照原图修改错字,遇到模糊无法辨认的内容,保留原识别结果,在后方添加[?]标注,严禁自行脑补修改原文
- 确认无误后保存,软件会自动生成同名txt文件
步骤5:结构化分类存储
直接套用三级文件夹结构,零学习成本,结构如下:
- 一级文件夹:【XX(机构/姓名)老旧档案库】,放在电脑非系统盘(如D盘)根目录,不要放在C盘避免重装系统丢失
- 二级文件夹:在一级目录下按档案类型创建,例:人事类、文书类、财务类、家庭书信类、奖状证书类
- 三级文件夹:每一份独立档案创建一个三级文件夹,命名规则为「形成年份+档案名称」,例:「1995年张三大学毕业证书」
每个三级文件夹中放入对应档案的所有扫描原图和OCR识别后的txt文件,原图命名为「原扫描_01.jpg」「原扫描_02.jpg」按页码排序,txt文件统一命名为「识别文字.txt」即可。
最后在一级档案库根目录新建一个Excel目录表,表头如下:
| 档案编号 |
分类 |
档案名称 |
形成年份 |
存放路径 |
备注 |
把所有档案信息录入目录表,方便整体梳理,安装Everything工具后,可直接输入关键词,一秒检索所有txt文件中的内容,检索效率极高。
步骤6:多副本备份避免数据丢失
- 第一本地副本:存放在电脑非系统盘,不要放在桌面或C盘
- 第二离线副本:存放在独立移动硬盘,每年通电一次运行10分钟,避免硬盘长期不通电老化丢数据
- 第三云端备份:上传到个人云盘,仅作为冷备份,不要开启本地同步,避免占用本地存储空间
完成以上所有步骤,老旧档案数字化工作就全部完成,原纸质档案请放置在干燥阴凉处密封保存,不要随意丢弃。