本方案基于开源项目实现,全程免费、数据不出本地,符合档案管理安全要求,零编程基础也可按步骤落地。
必须安装Python 3.8~3.10版本,过高或过低版本都会导致核心依赖兼容错误,普通CPU即可运行,不需要独立显卡。
Python 3.10.11稳定版下载地址:https://www.python.org/downloads/release/python-31011/
安装完成后打开命令提示符(Windows)或终端(Mac/Linux),输入以下命令验证安装:
``` python --version ```输出类似Python 3.10.11即为安装成功。
在命令行执行以下命令,安装CPU版本的PaddlePaddle(国内镜像加速,速度更快):
``` python -m pip install paddlepaddle==2.4.2 -i https://mirror.baidu.com/pypi/simple ```安装完成后验证是否成功,执行以下命令:
``` python -c "import paddle; print(paddle.is_installed())" ```输出True即为安装成功,若输出False请重新执行安装命令。
如果你已经安装git,执行以下命令拉取国内镜像代码(速度远快于GitHub):
``` git clone https://gitee.com/paddlepaddle/PaddleOCR.git cd PaddleOCR ```如果没有安装git,直接打开下载地址:https://gitee.com/paddlepaddle/PaddleOCR/repository/archive/release/2.7.zip,下载压缩包后解压,进入解压后的PaddleOCR文件夹即可。
接下来安装项目依赖,在当前PaddleOCR目录的命令行下执行:
``` python -m pip install -r requirements.txt -i https://mirror.baidu.com/pypi/simple ```常规OCR参数针对彩色照片优化,档案扫描件多为灰度、文字颜色浅,部分带阴影和装订线,因此我们需要调低检测阈值,提升对浅文字的识别率,不需要修改配置文件,直接在启动命令中传入参数即可。

在当前PaddleOCR目录的命令行下,执行以下启动命令:
``` python tools/hub_serving.py --det_model_dir=ch_ppocr_v2_det --rec_model_dir=ch_ppocr_v2_rec --det_db_thresh=0.2 --det_db_box_thresh=0.1 --use_gpu=False --port=8866 ```参数说明:
第一次启动会自动下载预训练模型,下载进度会在命令行中显示。如果下载速度过慢,可手动下载模型后放入用户目录下的.paddleocr文件夹,模型下载地址:https://gitee.com/paddlepaddle/PaddleOCR/tree/release/2.7/models
当命令行输出Endpoint: http://0.0.0.0:8866字样,说明服务已经启动成功。
启动成功后有两种使用方式,零门槛可直接用浏览器测试:
1. 浏览器测试:打开浏览器,输入地址:http://127.0.0.1:8866,即可看到上传测试页面,选择你的档案扫描件图片,点击识别即可得到结构化的文字结果。
2. 接口调用(供二次开发接入档案系统使用):通过POST请求上传文件,获取识别结果,示例curl命令:
``` curl -X POST -F "file=@/path/to/你的档案图片.jpg" http://127.0.0.1:8866/predict/ocr_system ```返回结果格式示例:
``` { "code": 0, "msg": "success", "data": [ { "text": "张三个人人事档案", "confidence": 0.98, "text_region": [[28,19],[387,19],[387,48],[28,48]] } ] } ```data数组中每个元素对应一个识别出的文字块,包含文字内容、置信度和位置坐标,可以直接解析存入档案管理系统。
直接执行以下命令更新pip后重新安装:
``` python -m pip install --upgrade pip -i https://mirror.baidu.com/pypi/simple ```确认Python版本在3.8~3.10之间,不符合要求的重新安装对应版本即可解决。
手动下载预训练模型,解压后放入当前用户目录下的.paddleocr文件夹,Windows路径一般是C:\Users\你的用户名\.paddleocr,Mac/Linux路径是~/.paddleocr,重新启动服务即可自动加载。
如果是分辨率过低的扫描件,先将图片分辨率放大到300DPI再识别;如果公章遮挡文字较多,可以在启动命令末尾添加参数 --det_db_unclip_ratio=1.5,重新启动服务即可提升文字检出率。