需安装Python3.8及以上版本,并安装数据处理依赖库,操作步骤如下:
winget install Python.Python.3.10brew install python@3.10将自身档案数据整理为CSV格式,表头需包含:档案编号、姓名、部门、入职时间、档案状态;若暂无数据,可复制以下示例内容保存为archive_sample.csv,并放在后续脚本的同目录下:
档案编号,姓名,部门,入职时间,档案状态
DA2023001,张三,研发部,2018-05-10,已归档
DA2023002,李四,人事部,2020-02-15,待归档
DA2023003,王五,财务部,2015-11-20,已归档
DA2023004,赵六,研发部,2021-08-01,待归档
创建名为archive_analysis.py的脚本,复制以下完整代码(直接可运行):
执行脚本命令:进入脚本所在目录,执行python archive_analysis.py,若输出与示例匹配的4条数据则清洗成功。
在上述脚本末尾追加以下代码,替换后重新执行,生成各部门档案统计结果:
```python 各部门档案数量统计 dept_count = df['部门'].value_counts().reset_index(name='档案数量') print("\n各部门档案数量:") print(dept_count) ```执行后会输出研发部2条、人事部1条、财务部1条的结果,可直接用于部门档案工作量统计。

追加以下代码,筛选入职年限超10年且状态为待归档的档案(可自行调整年限阈值):
```python 计算入职年限 current_year = datetime.now().year df['入职年限'] = current_year - df['入职时间'].dt.year 筛选异常待归档档案 abnormal_archive = df[(df['入职年限'] > 10) & (df['档案状态'] == '待归档')] print("\n异常待归档档案:") print(abnormal_archive[['档案编号', '姓名', '部门', '入职年限']]) ```在脚本末尾追加代码,将清洗后的数据导出为CSV,可直接导入档案管理系统:
```python 导出清洗后的数据到本地 df.to_csv('cleaned_archive.csv', index=False, encoding='utf-8-sig') ```追加代码生成包含清洗数据、部门统计的双工作表Excel:
```python 导出多工作表Excel报表 with pd.ExcelWriter('archive_report.xlsx', engine='openpyxl') as writer: df.to_excel(writer, sheet_name='清洗后档案数据', index=False) dept_count.to_excel(writer, sheet_name='部门档案统计', index=False) ```执行后同目录生成archive_report.xlsx,可直接用于档案管理汇报。
1. 编码错误:若CSV读取乱码,将encoding='utf-8'替换为encoding='gbk';
2. 库安装失败:执行pip install --upgrade pip后再重新安装依赖;
3. 日期格式错误:确保CSV中入职时间为YYYY-MM-DD格式,若不同需调整代码中的format参数。