pip install paddlepaddle==2.4.2 paddleocr==2.6.1.3
先对所有纸质档案进行分类整理,按年度、部门、档案类型划分批次,剔除破损、粘连的页面,用拆钉器完全去除所有金属装订物,避免刮伤扫描仪进纸组件。老旧档案先放到紫外线消毒灯下方照射30分钟消毒,避免霉菌污染设备。
给每份档案分配唯一12位编码,规则为:前4位=归档年度、中间2位=部门编码、后6位=流水号,例如2023XS000123代表2023年行政部第123份档案。打开条码生成工具,输入编码选择CODE128格式,打印条码后贴在每份档案首页右上角,不要遮挡原有文字内容。
打开NAPS2,首次配置必须设置300DPI分辨率、彩色模式、保存格式为PNG,禁止选JPG格式避免压缩损失画质。将整理好的档案放入自动进纸器,单次放置不超过50张,避免卡纸。
扫描完成后点击「批量编辑」,勾选「自动纠偏」「自动裁剪」「去黑边」「去除空白页」,空白页阈值设为1%(即空白占比99%的页面自动删除),处理完成后按档案编码创建文件夹,例如2023XS000123文件夹内存放对应所有扫描页,命名为001.png、002.png依次排序。老旧档案字迹模糊的,手动调整对比度到字迹清晰即可,不要过度调整导致文字丢失。

将以下代码保存为ocr.py,修改扫描件路径后直接运行即可批量提取文字: ``` from paddleocr import PaddleOCR import os 初始化中文OCR模型 ocr = PaddleOCR(use_angle_cls=True, lang='ch') 扫描件所在文件夹路径,替换为你自己的路径 scan_path = "./2023XS000123/" 识别结果保存路径 save_path = "./ocr_result/2023XS000123.txt" result_text = "" 按文件名排序读取扫描页 for file in sorted(os.listdir(scan_path)): if file.endswith(".png"): result = ocr.ocr(os.path.join(scan_path, file), cls=True) for line in result: for word in line: result_text += word[1][0] + "\n" result_text += f"=====第{file.split('.')[0]}页结束=====\n" 保存识别结果 with open(save_path, "w", encoding="utf-8") as f: f.write(result_text) ```
执行完成后必须人工核验前3页的识别准确率,如果准确率低于95%,将扫描分辨率调到400DPI重新扫描。核验无误后,给每份档案提取3-5个核心关键词,例如合同类标引甲方、乙方、合同金额、签订日期,作为后续检索的标签。
打开浏览器访问部署Mayan EDMS的服务器IP地址,默认账号为admin,密码为admin,首次登录必须修改8位以上包含数字字母的密码。点击「新建文档」,上传对应扫描件文件夹和OCR识别结果,填写档案编码、关键词、档案类型、保管期限等元数据,确认无误后提交入库。
数据备份必须做3份:第一份存储在服务器RAID5磁盘阵列中,作为日常访问使用;第二份存储在离线机械硬盘中,放在异地保险柜保管,每季度更新一次;第三份存储在单位私有云对象存储中,设置只读权限,仅管理员可访问。