一、前期硬件软件清单准备
1.1 硬件(最低实用配置)
- 档案扫描仪:零门槛选爱普生DS-1630/佳能DR-M1060(A4幅面,支持自动双面、ADF批量扫,分辨率600dpi起步,淘宝/京东自营二选一)
- 声像采集设备:普通手机(需支持1080P+音频降噪,配三脚架固定)+ USB外接电容麦(选铁三角ATR2100x-USB入门款,自带防喷棉)
- 存储设备:1台2TB+机械硬盘(NAS备份选群晖DS223j+2块西数红盘Plus 4TB组成RAID1,单盘本地备份也可优先希捷酷鹰)
1.2 软件(全免费/开源合规)
- 扫描端软件:ScanSnap Home(绑定爱普生DS系列通用,无需注册)/ CaptureOnTouch Express(绑定佳能DR系列通用,无需注册)
- 图像处理软件:GIMP 2.10.34(裁剪、去污、OCR前预处理)+ Tesseract-OCR 5.3.3(简体中文识别)+ 中文语言包:chi_sim.traineddata、chi_sim_vert.traineddata(下载地址:https://github.com/tesseract-ocr/tessdata_fast/raw/main/chi_sim.traineddata、https://github.com/tesseract-ocr/tessdata_fast/raw/main/chi_sim_vert.traineddata)
- 声像处理软件:Audacity 3.3.3(音频降噪、剪辑)+ HandBrake 1.6.2(视频压缩、转MP4通用格式)
- 归档管理软件:Memories(配合群晖DS223j使用,单盘本地可选Windows自带的OneDrive个人版免费5GB空间,仅存索引和缩略图,高清存本地)
二、纸质档案批量预处理与扫描
2.1 批量预处理
- 去钉去线:用回形针替代原金属钉/线绳(避免损伤扫描头),对折页、粘页展平并用美纹纸临时固定边角
- 分类编号:按“全宗号-年度-保管期限-件号”手写在每张纸的右上角空白处(比如:GM-1949-P-0001,GM代表革命历史临时全宗,可自定义)
2.2 扫描参数配置
以ScanSnap Home绑定爱普生DS-1630为例,打开软件后按以下操作调整:
- 点击“扫描设置”→“文档”→“批量扫描”→“A4双面”
- 点击“图像”→“分辨率”选600dpi(黑白稿可选400dpi彩色优先)→“色彩模式”选“自动”(普通彩色选“彩色”,纯文字选“黑白二值化”)→“自动裁剪”“自动纠偏”“自动去除空白页”全部勾选
- 点击“保存”→“保存格式”选PDF/A-1b(长期归档专用格式,微软Office可直接打开)→“文件名”模板设为“{全宗}-{年度}-{保管}-{件号}”(首次扫描手动输入前缀,后续自动递增件号)
2.3 开始批量扫描
将分类好的档案放入ADF进纸器(最多100张80g A4纸),点击软件界面“扫描”按钮即可,扫描完成后自动保存到指定本地文件夹。
三、纸质档案图像处理与OCR识别
3.1 手动二次预处理(GIMP)
打开GIMP 2.10.34,拖入需要修复的PDF/A-1b文件:
- 点击“图像”→“变换”→“裁剪到内容”去除多余留白
- 点击“滤镜”→“增强”→“去斑点”(默认参数:半径3,阈值15,勾选“修复边缘”)去除污渍、霉点
- 修复完成后点击“文件”→“导出为”,格式仍选PDF/A-1b,覆盖原文件
3.2 OCR批量识别(Tesseract-OCR+脚本辅助)
1. 安装Tesseract-OCR 5.3.3(Windows版下载地址:https://github.com/UB-Mannheim/tesseract/wiki/5.3.3),安装时勾选“Add Tesseract to PATH”;
2. 将下载好的chi_sim.traineddata、chi_sim_vert.traineddata复制到安装目录下的tessdata文件夹(默认C:\Program Files\Tesseract-OCR\tessdata);

3. 新建记事本,粘贴以下代码,保存为“批量OCR.bat”(后缀名改为.bat,编码选ANSI):
```batch
@echo off
chcp 65001
set "input_dir=D:\革命历史档案\扫描件"
set "output_dir=D:\革命历史档案\OCR结果"
if not exist "%output_dir%" mkdir "%output_dir%"
for %%f in ("%input_dir%\.pdf") do (
tesseract "%%f" "%output_dir%\%%~nf" -l chi_sim+chi_sim_vert pdf
)
echo 批量OCR完成!
pause
```
4. 修改代码中的input_dir(扫描件原文件夹)和output_dir(OCR后带文本层PDF文件夹)路径,双击运行即可,100张A4纸黑白稿约需5分钟。
四、声像档案采集与处理
4.1 录音档案采集
- 固定手机+铁三角ATR2100x-USB电容麦,距离口述者/老式录音带播放器喇叭10-15cm
- 手机录制时打开“录音笔模式”(不同品牌叫法不同,找无压缩、高采样率选项:44.1kHz/16bit)
4.2 录音档案处理(Audacity)
1. 打开Audacity 3.3.3,拖入录音文件:
- 点击“效果”→“降噪”→“获取噪声样本”(先选一段无内容的空白杂音区域,时长约1秒)
- 全选录音,再次点击“效果”→“降噪”(默认参数直接应用)
- 点击“文件”→“导出”→“导出为MP3”(码率选320kbps CBR,文件名按“全宗号-年度-保管期限-件号-声像”命名)
4.3 老照片/录像带视频采集同理,录像转码用HandBrake选“Fast 1080p30”预设,格式选MP4即可。
五、归档管理与备份
5.1 本地单盘管理(Memories/OneDrive)
群晖DS223j:将处理好的PDF/A-1b、MP3、MP4文件统一上传到指定共享文件夹,安装Memories套件后自动生成按分类编号排序的缩略图和检索功能,支持全文搜索OCR后的PDF。
Windows OneDrive:将处理好的文件按“全宗号-年度”创建子文件夹,上传子文件夹到OneDrive个人版,仅同步索引和缩略图,高清文件保留本地。
5.2 三重备份(必做)
- 本地主备份:处理好的所有文件存到2TB+机械硬盘(非系统盘)
- 异地主备份:用另一块同型号机械硬盘复制一份,放在离本地3公里以上的安全地方
- 云端备份:压缩所有文件为ZIP分卷(每卷1GB),上传到百度网盘个人版超级会员免费空间(仅存加密压缩包,密码至少16位)