提前准备以下免费工具,直接按以下地址或命令安装,无额外费用:
pip install paddlepaddle paddleocr存储要求:单块存储硬盘预留至少2T可用空间,用于存放原始扫描件与处理后数据,满足档案存储密度要求。
正式扫描前按以下步骤整理,避免后续流程卡壳:
打开VueScan连接扫描仪后,直接套用以下参数,符合国家档案数字化标准:
扫描过程中发现缺页、漏页,直接在文件名末尾加「缺页X」标注,全部扫描完成后统一补扫。
VueScan可直接开启自动纠偏、自动裁剪功能,批量处理后仍有倾斜的文件,用以下完整代码自动二次纠偏,直接运行即可:
```python from paddleocr import PaddleOCR import os import cv2 ocr = PaddleOCR(use_angle_cls=True, lang='ch', use_gpu=False) input_dir = "./扫描件/" output_dir = "./处理后扫描件/" if not os.path.exists(output_dir): os.mkdir(output_dir) for img_name in os.listdir(input_dir): img_path = os.path.join(input_dir, img_name) img = cv2.imread(img_path) result = ocr.ocr(img_path, cls=True) if not result[0]: cv2.imwrite(os.path.join(output_dir, img_name), img) continue angle = result[0][0][1][1] if 45 < angle < 135: angle = angle - 90 elif angle > 135 or angle < -45: angle = angle - 180 h, w = img.shape[:2] center = (w // 2, h // 2) M = cv2.getRotationMatrix2D(center, angle, 1.0) rotated = cv2.warpAffine(img, M, (w, h), flags=cv2.INTER_CUBIC, borderMode=cv2.BORDER_REPLICATE) cv2.imwrite(os.path.join(output_dir, img_name), rotated) ```
运行完成后即可得到全部自动纠偏后的扫描件,无需手动逐个调整。
使用以下完整代码批量识别所有扫描件文字,直接输出可检索的TXT文本:
```python from paddleocr import PaddleOCR import os ocr = PaddleOCR(use_angle_cls=True, lang='ch', use_gpu=False) img_dir = "./处理后扫描件/" output_dir = "./识别文本/" if not os.path.exists(output_dir): os.mkdir(output_dir) for img_name in os.listdir(img_dir): img_path = os.path.join(img_dir, img_name) result = ocr.ocr(img_path, cls=True) full_txt = [] if result[0]: for line in result[0]: full_txt.append(line[1][0]) with open(os.path.join(output_dir, f"{img_name.split('.')[0]}.txt"), 'w', encoding='utf-8') as f: f.write('\n'.join(full_txt)) ```识别完成后,按照国家《档案著录规则》填写结构化信息,标准要求如下:
| 著录项 | 填写要求 |
|---|---|
| 档号 | 格式:全宗号-目录号-案卷号-件号,与实体档号完全一致 |
| 题名 | 如实转录原文件题名,无题名的根据内容拟写后标注[拟] |
| 责任者 | 填写制发单位/个人全称,不得使用不规范简称 |
| 日期 | 格式统一为YYYY-MM-DD,填写原文件制发日期 |
| 保管期限 | 对应填写永久/30年/10年 |
按三级校验标准完成质量检查,避免不合格数据进入系统:
存储需符合档案安全管理要求,必须做三份备份:1份在线存储供系统调用,1份近线异机存储,1份离线异地蓝光光盘存储,避免单点故障导致数据丢失。
每半年做一次全量数据完整性校验,检查存储介质损坏情况;每3年做一次数据迁移,更换老化存储介质;每年更新一次OCR模型,提升老旧手写档案的识别准确率,持续优化数字档案馆系统的可用性。