提前准备3份必备文件,避免后续合规风险:

pip install paddlepaddle==2.4.2 -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install paddleocr==2.6.1.3 -i https://pypi.tuna.tsinghua.edu.cn/simple
// XnConvert 批处理配置 可直接导入使用
[Action]
Action1=Crop,Auto,0,0,0,0
Action2=Rotate,Auto,0,0
Action3=RemoveDust,10
Action4=RemoveBorder,0,0,0,0
[Output]
Folder=D:\档案数字化\输出\
Naming={Filename}
Format=Tiff
Compression=LZW
paddleocr --image_dir D:\档案数字化\输出\ --use_angle_cls true --lang ch --output D:\档案数字化\OCR结果\
@echo off
setlocal enabledelayedexpansion
set output=D:\档案数字化\MD5校验清单.csv
echo 文件名,MD5值 > %output%
for /r D:\档案数字化\输出\ %%f in (.tiff,.pdf) do (
for /f "skip=1 delims= " %%h in ('certutil -hashfile "%%f" MD5') do (
echo %%~nf,%%h >> %output%
goto :next
)
:next
)
echo 校验清单生成完成
pause
准备以下5份材料,打印盖章后提交当地档案主管部门即可申请验收:
--exclude_area "[(x1,y1,x2,y2)]"参数,标注印章坐标即可跳过该区域识别