本环节需完成工具安装与分类规则设定,所有操作无技术门槛,直接按步骤执行。
提前设定三类分类,编号规则统一为:类别缩写+年份+序号,示例如下: - 科研项目类:KY+年份+序号(如KY2024001); - 行政文书类:XZ+年份+序号(如XZ2024001); - 成果类:CG+年份+序号(如CG2024001); 分类完成后,每类档案单独堆叠存放。
必须移除所有装订物(回形针、钉书钉),确保页面无褶皱;每10份为一组,粘贴手写分组标签(编号与对应分类规则一致),避免批次混乱。
使用Adobe Acrobat Scan工具,操作步骤:打开Acrobat → 点击「工具」→ 选择「扫描并OCR」→ 点击「扫描」;
核心设置必须严格执行:分辨率300DPI,存储格式为PDF/A-1b(永久存档标准);扫描完成后,按批次命名文件,格式为「分类编号_批次号.pdf」(如KY2024001_01.pdf)。
每批次需核对PDF页数与原件计数完全一致,遗漏页面重新扫描;使用免费工具ImageMagick修正倾斜/模糊页面,命令直接复制执行: ``` convert -deskew 40% .pdf -o corrected_%d.pdf ```

元数据是档案入库的核心关联依据,需严格匹配每一份档案的属性,不得遗漏字段。
创建CSV文件,完整内容如下: ``` 档案编号,分类,项目名称,创建时间,责任人 KY2024001,科研项目,量子通信关键技术,2024-01-15,张三 KY2024002,科研项目,AI材料建模,2024-02-20,李四 XZ2024001,行政文书,2024年度科研经费批复,2024-03-05,王五 CG2024001,成果,高精度传感器专利授权,2024-04-10,赵六 ```
启动OpenRefine,选择「创建项目」→ 上传上述CSV文件;导入后,点击「编辑单元格」→ 「添加基于本列的列」,公式输入:`value + ".pdf"`,生成与PDF文件名完全匹配的文件名列;导出处理后的CSV,保存为「final_archive_meta.csv」。
浏览器打开地址http://localhost:8080,测试账号:admin,密码:admin123(生产环境需立即修改);首次登录必须创建分类目录:进入「档案分类」→ 「新建分类」,输入名称(如科研项目)与编号KY,点击「保存」。
1. 点击「批量导入」→ 「上传PDF文件包」,选择所有扫描完成的PDF文件; 2. 点击「上传元数据文件」,选择处理后的final_archive_meta.csv; 3. 必须勾选「自动匹配文件名与档案编号」,点击「导入」; 4. 等待系统完成校验,校验通过后即完成归档;若提示错误,查看系统日志修正后重新导入。
进入系统「档案检索」,输入任意已归档的档案编号,确认PDF可正常打开、元数据字段完整;核对总档案数与扫描批次总数完全一致,无遗漏。
执行数据库备份命令,将系统数据备份到本地: ``` docker exec archive-system mysqldump -u root -p123456 archive_db > archive_backup_$(date +%Y%m%d).sql ``` 同时将所有PDF文件复制到外置移动硬盘,完成物理备份,确保档案数据永久存储。