网站首页/ 信息中心/ 行业信息/

从零批量整理公司分散档案,一键导出规范可查的联系方式表

发布时间:2026年06月09日 09:55:03 浏览量:0

第一步:前期准备,3分钟搞定工具与素材

本指南用Python+免费开源Tesseract OCR引擎+PaddleOCR(中文手写/印刷混合识别更强的国内工具)实现,电脑配置Windows/Mac均可,整理员也能快速上手。

1.1 下载并安装基础工具

1.2 安装项目依赖库

在CMD/终端依次输入以下3条命令,每条执行完再输下一条(网络慢可加国内镜像源-i https://pypi.tuna.tsinghua.edu.cn/simple):

1.3 准备素材

将所有包含公司联系方式的档案(纸质先拍照成清晰JPG/PNG,每张只放1-2个联系人信息,手写印刷混放没关系)放到电脑桌面的「待整理档案」文件夹里;再在桌面新建一个「结果」空文件夹。

第二步:编写一键识别+整理代码,5分钟复制粘贴完成

在桌面新建一个文本文档,重命名为「整理公司联系方式.py」(注意把后缀名从.txt改成.py,Windows需先开启「文件扩展名」显示:打开任意文件夹→点击顶部「查看」→勾选「文件扩展名」),用记事本或VSCode(推荐新手用记事本)打开,粘贴以下完整代码:

```python import os import re import pandas as pd from paddleocr import PaddleOCR 初始化OCR模型(自动下载中文模型,首次运行需等待3-5分钟) ocr = PaddleOCR(use_angle_cls=True, lang="ch", show_log=False) 配置输入输出路径 input_folder = os.path.join(os.path.expanduser("~"), "Desktop", "待整理档案") output_folder = os.path.join(os.path.expanduser("~"), "Desktop", "结果") output_file = os.path.join(output_folder, "公司规范联系方式.xlsx") 检查输入输出路径 if not os.path.exists(input_folder): os.makedirs(input_folder) print(f"已在桌面创建「待整理档案」文件夹,请放入素材后重新运行") exit() if not os.path.exists(output_folder): os.makedirs(output_folder) 定义正则匹配规则(根据公司档案格式可微调,本规则覆盖国内常见场景) rules = { "姓名": r"[\u4e00-\u9fa5]{2,4}(?=[\s,。::;;]$|[\s,。::;;][职部岗公客合作关联]{1,3}[\s,。::;;][\u4e00-\u9fa5]$)", "手机号": r"1[3-9]\d{9}", "固定电话": r"0\d{2,3}-?\d{7,8}(?:-\d{1,4})?", "邮箱": r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}", "职位/部门": r"[\u4e00-\u9fa5]{2,10}(?:经理|主管|专员|员工|总监|总经理|副总经理|部长|科长|组长|部门|中心|办公室|客服部|销售部|技术部|市场部|行政部|人事部|财务部){1,2}" } 整理识别结果的函数 def extract_info(text): info = {key: "" for key in rules.keys()} for key, pattern in rules.items(): matches = re.findall(pattern, text) if matches: info[key] = "、".join(matches[:1]) if key == "姓名" else "、".join(matches) return info 主程序 if __name__ == "__main__": contact_list = [] 遍历待整理文件夹里的图片 for filename in os.listdir(input_folder): if filename.lower().endswith((".jpg", ".jpeg", ".png")): file_path = os.path.join(input_folder, filename) print(f"正在处理:{filename}") OCR识别图片 result = ocr.ocr(file_path, cls=True) 提取文本 text = "" if result and result[0]: for line in result[0]: text += line[1][0] + " " 提取结构化信息 contact = extract_info(text) contact["来源文件名"] = filename contact_list.append(contact) 保存为Excel if contact_list: df = pd.DataFrame(contact_list) df = df[["来源文件名", "姓名", "职位/部门", "手机号", "固定电话", "邮箱"]] df.to_excel(output_file, index=False) print(f"处理完成!结果已保存到:{output_file}") else: print("未找到待处理的图片文件,请检查「待整理档案」文件夹") ```

从零批量整理公司分散档案,一键导出规范可查的联系方式表

正则匹配规则说明(仅需了解,新手不用改):如果公司档案里有固定的地址、合作方编号等字段,可参考现有规则格式添加,比如地址规则可以是r"[\u4e00-\u9fa50-9]{5,50}(?:省|市|区|县|路|街|号|大厦|园区|楼|室){1,}"。

第三步:运行代码,批量整理只需等待

3.1 Windows用户运行步骤

按住Shift键,同时右键点击桌面空白处,选择「在此处打开PowerShell窗口」(如果没有PowerShell选「在此处打开命令窗口」);在窗口输入python 整理公司联系方式.py,按回车键执行。

3.2 Mac用户运行步骤

打开「终端」,输入cd Desktop,按回车键进入桌面;再输入python3 整理公司联系方式.py(注意Mac默认是python3),按回车键执行。

3.3 首次运行注意事项

首次运行时,PaddleOCR会自动下载3-4个中文识别模型(每个约100-500MB),请确保电脑连接稳定的WiFi;下载完成后会立即开始处理图片,处理速度取决于图片数量和清晰度,100张清晰图片约5-10分钟。

第四步:手动校准与收尾,10分钟补全修正

批量整理完成后,打开「结果」文件夹里的Excel表:

档案安全制度怎么建?从实体到数字化的全方位避坑指南
档案安全制度怎么建?从实体到数字化的全方位避坑指南
不管是传统纸质的卷宗,还是现在火热的电子数据,档案都是企业的“记忆”和“资产”。一旦丢失或泄露,后果不堪设想。今天咱们不谈大道理,直接聊聊怎么搭建一套既能防贼又能防黑客的档案安全制度,帮大家避开管理中...
2026年06月09日 09:55:03
想做档案整理工作,一定要选合规靠谱的档案整理继续教育
想做档案整理工作,一定要选合规靠谱的档案整理继续教育
说真的,我前几年刚转岗做档案相关工作的时候,完全就是个摸瞎的二愣子,我当时还想,不就是把纸堆起来码整齐?有什么难的?结果交活的时候被老领导骂得狗血淋头,说我整理的东西,十年后后人能找着算我赢,那时候我...
2026年06月09日 09:55:03
微信咨询
电话联系
QQ客服
微信咨询一对一服务
服务热线: 028-8744 4417
QQ客服: 2305721818