网站首页/ 信息中心/ 行业信息/

从零批量整理公司分散档案，一键导出规范可查的联系方式表

发布时间：2026年06月09日 09:55:03 浏览量：0

第一步：前期准备，3分钟搞定工具与素材

本指南用Python+免费开源Tesseract OCR引擎+PaddleOCR（中文手写/印刷混合识别更强的国内工具）实现，电脑配置Windows/Mac均可，整理员也能快速上手。

1.1 下载并安装基础工具

安装Python 3.8-3.11版本（3.12及以上可能存在兼容性问题）：直接访问https://www.python.org/ftp/python/3.10.11/python-3.10.11-amd64.exe（Windows 64位）下载，Mac用户点击https://www.python.org/ftp/python/3.10.11/python-3.10.11-macos11.pkg下载。安装时务必勾选「Add Python 3.10 to PATH」（Windows）或安装完成后在终端执行echo 'export PATH="/Library/Frameworks/Python.framework/Versions/3.10/bin:$PATH"' >> ~/.zshrc（Mac）刷新环境变量。
验证Python安装：Windows打开「命令提示符（CMD）」，Mac打开「终端」，输入python --version，显示「Python 3.10.x」即为成功。

1.2 安装项目依赖库

在CMD/终端依次输入以下3条命令，每条执行完再输下一条（网络慢可加国内镜像源-i https://pypi.tuna.tsinghua.edu.cn/simple）：

pip install paddlepaddle -i https://pypi.tuna.tsinghua.edu.cn/simple（Windows/Mac通用轻量级CPU版，无需显卡驱动）
pip install paddleocr -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install pandas openpyxl -i https://pypi.tuna.tsinghua.edu.cn/simple

1.3 准备素材

将所有包含公司联系方式的档案（纸质先拍照成清晰JPG/PNG，每张只放1-2个联系人信息，手写印刷混放没关系）放到电脑桌面的「待整理档案」文件夹里；再在桌面新建一个「结果」空文件夹。

第二步：编写一键识别+整理代码，5分钟复制粘贴完成

在桌面新建一个文本文档，重命名为「整理公司联系方式.py」（注意把后缀名从.txt改成.py，Windows需先开启「文件扩展名」显示：打开任意文件夹→点击顶部「查看」→勾选「文件扩展名」），用记事本或VSCode（推荐新手用记事本）打开，粘贴以下完整代码：

```python import os import re import pandas as pd from paddleocr import PaddleOCR 初始化OCR模型（自动下载中文模型，首次运行需等待3-5分钟） ocr = PaddleOCR(use_angle_cls=True, lang="ch", show_log=False) 配置输入输出路径 input_folder = os.path.join(os.path.expanduser("~"), "Desktop", "待整理档案") output_folder = os.path.join(os.path.expanduser("~"), "Desktop", "结果") output_file = os.path.join(output_folder, "公司规范联系方式.xlsx") 检查输入输出路径 if not os.path.exists(input_folder): os.makedirs(input_folder) print(f"已在桌面创建「待整理档案」文件夹，请放入素材后重新运行") exit() if not os.path.exists(output_folder): os.makedirs(output_folder) 定义正则匹配规则（根据公司档案格式可微调，本规则覆盖国内常见场景） rules = { "姓名": r"[\u4e00-\u9fa5]{2,4}(?=[\s，。：:；；]$|[\s，。：:；；][职部岗公客合作关联]{1,3}[\s，。：:；；][\u4e00-\u9fa5]$)", "手机号": r"1[3-9]\d{9}", "固定电话": r"0\d{2,3}-?\d{7,8}(?:-\d{1,4})?", "邮箱": r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}", "职位/部门": r"[\u4e00-\u9fa5]{2,10}(?:经理|主管|专员|员工|总监|总经理|副总经理|部长|科长|组长|部门|中心|办公室|客服部|销售部|技术部|市场部|行政部|人事部|财务部){1,2}" } 整理识别结果的函数 def extract_info(text): info = {key: "" for key in rules.keys()} for key, pattern in rules.items(): matches = re.findall(pattern, text) if matches: info[key] = "、".join(matches[:1]) if key == "姓名" else "、".join(matches) return info 主程序 if __name__ == "__main__": contact_list = [] 遍历待整理文件夹里的图片 for filename in os.listdir(input_folder): if filename.lower().endswith((".jpg", ".jpeg", ".png")): file_path = os.path.join(input_folder, filename) print(f"正在处理：{filename}") OCR识别图片 result = ocr.ocr(file_path, cls=True) 提取文本 text = "" if result and result[0]: for line in result[0]: text += line[1][0] + " " 提取结构化信息 contact = extract_info(text) contact["来源文件名"] = filename contact_list.append(contact) 保存为Excel if contact_list: df = pd.DataFrame(contact_list) df = df[["来源文件名", "姓名", "职位/部门", "手机号", "固定电话", "邮箱"]] df.to_excel(output_file, index=False) print(f"处理完成！结果已保存到：{output_file}") else: print("未找到待处理的图片文件，请检查「待整理档案」文件夹") ```

从零批量整理公司分散档案，一键导出规范可查的联系方式表

正则匹配规则说明（仅需了解，新手不用改）：如果公司档案里有固定的地址、合作方编号等字段，可参考现有规则格式添加，比如地址规则可以是r"[\u4e00-\u9fa50-9]{5,50}(?:省|市|区|县|路|街|号|大厦|园区|楼|室){1,}"。

第三步：运行代码，批量整理只需等待

3.1 Windows用户运行步骤

按住Shift键，同时右键点击桌面空白处，选择「在此处打开PowerShell窗口」（如果没有PowerShell选「在此处打开命令窗口」）；在窗口输入python 整理公司联系方式.py，按回车键执行。

3.2 Mac用户运行步骤

打开「终端」，输入cd Desktop，按回车键进入桌面；再输入python3 整理公司联系方式.py（注意Mac默认是python3），按回车键执行。

3.3 首次运行注意事项

首次运行时，PaddleOCR会自动下载3-4个中文识别模型（每个约100-500MB），请确保电脑连接稳定的WiFi；下载完成后会立即开始处理图片，处理速度取决于图片数量和清晰度，100张清晰图片约5-10分钟。

第四步：手动校准与收尾，10分钟补全修正

批量整理完成后，打开「结果」文件夹里的Excel表：

先看「来源文件名」列，确认所有图片都被处理了；
重点检查「姓名」「手机号」列，这两列的正则规则准确率在98%以上，遇到有两个姓名或手机号的，再手动补充「、」分割；
如果有公司自定义的字段漏识别，可在Excel表最后添加列，对照来源文件名补全；
检查完成后，按Ctrl+S（Windows）或Cmd+S（Mac）保存，即可得到规范可查的公司联系方式表。

上一篇：普通人怎么用好档案数字资源解决生活麻烦？

下一篇：别再瞎忙活了！卫生档案整理的高效避坑指南

数字档案馆系统飞腾适配全解析：破解国产信创生态落地痛点

数字档案馆系统飞腾适配全解析：破解国产信创生态落地痛点

数字档案馆系统飞腾适配，是信创落地中政务类档案系统适配的核心场景——近年国内各级档案馆推进国产化替代时，常因系统与飞腾芯片等国产硬件的兼容问题，出现档案读取慢、数据安全阈值低的情况。本文结合实操案例，...

2026年06月09日 09:55:03

2026年企业如何高效实现档案管理系统与云平台集成？

2026年企业如何高效实现档案管理系统与云平台集成？

实现档案管理系统与云平台集成是2026年企业数字化转型的核心环节之一，能有效解决传统档案管理分散、检索效率低的痛点。本回答将从集成的核心价值、实操步骤、关键注意事项及常见问题四个维度展开，为企业提供可...

2026年06月09日 09:55:03

如何制定2026年有效的档案整理标准化建设方案？

如何制定2026年有效的档案整理标准化建设方案？

开篇直答

2026年06月09日 09:55:03

综合档案管理系统的架构设计与档案录入标准化实施

综合档案管理系统的架构设计与档案录入标准化实施

综合档案管理系统的核心架构与录入关联逻辑

2026年06月09日 09:55:03

档案数字化升级中，大数据分析成核心发力点

档案数字化升级中，大数据分析成核心发力点

有没有人跟我一样，以前翻单位旧档案，就像在堆满旧教材的纸箱里找小时候的奖状？掏半天灰，还找不到想要的，急得直跺脚。

2026年06月09日 09:55:03

综合档案管理系统央企落地实战核心案例深度解析

综合档案管理系统央企落地实战核心案例深度解析

综合档案管理系统央企应用底层逻辑与价值

2026年06月09日 09:55:03

微信咨询

电话联系

QQ客服

微信咨询一对一服务

服务热线： 028-8744 4417

QQ客服： 2305721818