网站首页/ 信息中心/ 档案百科/

用Python+MySQL快速搭建档案管理系统大数据分析基础

发布时间：2026年06月07日 18:43:35 浏览量：0

一、环境准备

1. 安装Python 3.8+（官网下载地址：https://www.python.org/downloads/，安装时勾选Add Python to PATH）

2. 安装MySQL 5.7+（官网下载地址：https://dev.mysql.com/downloads/mysql/），安装时设置root密码为123456

3. 安装依赖库，复制命令在终端执行：

pip install pandas pymysql python-dotenv

二、搭建档案大数据存储环境

2.1 创建数据库和档案表

打开MySQL命令行，执行以下完整SQL：

CREATE DATABASE archive_system DEFAULT CHARACTER SET utf8mb4;
USE archive_system;
CREATE TABLE archive_records (
id INT AUTO_INCREMENT PRIMARY KEY,
archive_no VARCHAR(20) NOT NULL COMMENT '档案编号',
category VARCHAR(50) NOT NULL COMMENT '档案类别',
store_date DATE NOT NULL COMMENT '存储日期',
expire_date DATE NOT NULL COMMENT '到期日期',
location VARCHAR(100) NOT NULL COMMENT '存储位置',
create_time DATETIME DEFAULT CURRENT_TIMESTAMP
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

上述SQL会创建名为archive_system的数据库，以及存储档案核心信息的archive_records表。

2.2 导入测试档案数据

1. 新建test_archive.csv文件，内容如下（直接复制保存）：

档案编号,类别,存储日期,到期日期,存储位置
DA2024001,人事档案,2024-01-10,2034-01-09,档案室A区1柜
DA2024002,合同档案,2024-02-15,2044-02-14,档案室B区3柜
DA2024003,财务凭证,2024-03-20,2034-03-19,档案室C区2柜
DA2024004,人事档案,2024-04-05,2034-04-04,档案室A区2柜
DA2024005,合同档案,2024-05-12,2044-05-11,档案室B区4柜

2. 新建.env文件，配置MySQL连接信息（和Python代码同目录）：

DB_HOST=localhost
DB_USER=root
DB_PASS=123456
DB_NAME=archive_system

3. 新建import_archive.py，执行数据导入：

用Python+MySQL快速搭建档案管理系统大数据分析基础

import os
import pandas as pd
import pymysql
from dotenv import load_dotenv
load_dotenv()
读取CSV数据
df = pd.read_csv('test_archive.csv')
连接MySQL
conn = pymysql.connect(
host=os.getenv('DB_HOST'),
user=os.getenv('DB_USER'),
password=os.getenv('DB_PASS'),
database=os.getenv('DB_NAME'),
charset='utf8mb4'
)
写入数据库
df.to_sql('archive_records', conn, if_exists='append', index=False)
conn.close()
print("测试数据导入完成")

4. 执行导入命令：python import_archive.py，提示导入完成即成功。

三、基础档案大数据分析实操

3.1 档案类别数量统计

新建analysis_category.py，代码如下：

import os
import pandas as pd
import pymysql
from dotenv import load_dotenv
load_dotenv()
conn = pymysql.connect(
host=os.getenv('DB_HOST'),
user=os.getenv('DB_USER'),
password=os.getenv('DB_PASS'),
database=os.getenv('DB_NAME'),
charset='utf8mb4'
)
查询类别统计
query = "SELECT category, COUNT() AS count FROM archive_records GROUP BY category;"
result = pd.read_sql(query, conn)
print("档案类别统计结果：")
print(result)
conn.close()

执行命令：python analysis_category.py，会输出每个类别的档案数量。

3.2 近30天新增档案统计

新建analysis_recent.py，代码如下：

import os
import pandas as pd
import pymysql
from datetime import datetime, timedelta
from dotenv import load_dotenv
load_dotenv()
conn = pymysql.connect(
host=os.getenv('DB_HOST'),
user=os.getenv('DB_USER'),
password=os.getenv('DB_PASS'),
database=os.getenv('DB_NAME'),
charset='utf8mb4'
)
计算30天前的日期
recent_date = (datetime.now() - timedelta(days=30)).strftime('%Y-%m-%d')
query = f"SELECT store_date, COUNT() AS count FROM archive_records WHERE store_date >= '{recent_date}' GROUP BY store_date ORDER BY store_date;"
result = pd.read_sql(query, conn)
print(f"近30天新增档案统计（从{recent_date}起）：")
print(result)
conn.close()

执行命令：python analysis_recent.py，输出近1个月每天的新增档案数量。

3.3 到期档案预警筛选

新建analysis_expire.py，代码如下：

import os
import pandas as pd
import pymysql
from datetime import datetime
from dotenv import load_dotenv
load_dotenv()
conn = pymysql.connect(
host=os.getenv('DB_HOST'),
user=os.getenv('DB_USER'),
password=os.getenv('DB_PASS'),
database=os.getenv('DB_NAME'),
charset='utf8mb4'
)
查询已到期（今天及之前）的档案
today = datetime.now().strftime('%Y-%m-%d')
query = f"SELECT archive_no, category, expire_date, location FROM archive_records WHERE expire_date <= '{today}';"
result = pd.read_sql(query, conn)
print(f"已到期档案预警（截至{today}）：")
print(result)
conn.close()

执行命令：python analysis_expire.py，输出所有已到期的档案信息。

四、后续扩展提示

以上步骤完成后，可根据业务需求扩展，比如增加月度统计、按存储位置分类、到期预警通知等，核心逻辑都是通过SQL从archive_records表中提取数据，用pandas做聚合分析，无需额外修改核心代码框架。

上一篇：数字档案馆系统档案大屏可视化：让沉睡的档案“活”起来，一眼看清家底

下一篇：原生电子档案全流程管理攻略归集审核归档全步骤避坑指南

【档案管理系统档案智能化使用经验】

【档案管理系统档案智能化使用经验】

你是不是也有过这种崩溃时刻：找去年的员工入职档案，翻遍系统所有文件夹，混在一堆简历里找不到，领导催到炸？上周帮行政小A找张设计师的入职档案，她花了20分钟还没定位到。我做了10年互联网内容，帮过几十个...

2026年06月07日 18:43:35

档案区块链存证制度建设的核心要点、实操流程及2026最新政策解读

档案区块链存证制度建设的核心要点、实操流程及2026最新政策解读

档案区块链存证制度建设是规范档案存证流程、保障档案真实性与可追溯性的核心体系，目前已成为各级政务单位及企业档案管理的重要方向。为帮助各类主体顺利推进，本回答将从政策依据、实操步骤、常见误区及FAQ四个...

2026年06月07日 18:43:35

玻璃企业档案培训：解决生产型玻璃企业档案管理的合规与效率痛点

玻璃企业档案培训：解决生产型玻璃企业档案管理的合规与效率痛点

不少中小规模玻璃企业的档案管理还停留在“临时堆文件”的状态——原片供应商的资质复印件、生产批次的质检单、下游加工商的订单台账混放，一旦碰到安监核查、税务溯源就手忙脚乱，甚至出现漏归档、档案丢失的情况。...

2026年06月07日 18:43:35

搞砸仓储档案培训？老员工都这么玩

搞砸仓储档案培训？老员工都这么玩

这事儿吧，其实没你想的那么难

2026年06月07日 18:43:35

档案管理系统解密太繁琐？揭秘高效便捷的解决方案与实操指南

档案管理系统解密太繁琐？揭秘高效便捷的解决方案与实操指南

开篇：效率与安全的博弈，如何破局？

2026年06月07日 18:43:35

档案管理软件升级失败？别慌，老司机教你几招搞定

档案管理软件升级失败？别慌，老司机教你几招搞定

这事儿吧，我估计不少管档案的朋友都遇到过。眼巴巴等着软件升级，盼着新功能新界面，结果“啪”一下，升级失败，弹个错误代码，或者干脆卡在某个进度条不动了。当时那个心情，真是又急又无奈，感觉一整天的工作计划...

2026年06月07日 18:43:35

微信咨询

电话联系

QQ客服

微信咨询一对一服务

服务热线： 028-8744 4417

QQ客服： 2305721818