一、前期准备:零代码配置巡检清单
1. 通用核心组件巡检清单
不管什么架构的数字档案馆,以下清单必须覆盖,复制后可直接填入Excel或主流免费工具:
- 服务器硬件:CPU使用率、内存使用率、磁盘剩余空间(档案数据盘需≥15%)、磁盘IO延迟(读取≤10ms、写入≤20ms)
- 操作系统:Windows/ Linux服务状态、防火墙规则、日志错误级别(仅检查ERROR/FATAL)
- 应用服务:Web服务(Nginx/Apache/IIS)、中间件(Tomcat/WebLogic)、全文检索服务(Elasticsearch/Solr)、元数据库(MySQL/Oracle)、档案文件库(MinIO/OSS)
- 核心业务:归档接口连通性、档案检索响应速度(≤2秒)、批量下载权限测试
2. 工具准备
推荐零门槛免费工具,无需安装:
- 硬件/系统监控:Windows用【任务管理器→性能→资源监视器】;Linux用
topdf -hiostat -x 1 3(直接输入终端)
- 服务连通性:Windows用【Win+R→cmd→ping IP地址】【Win+R→cmd→telnet IP地址 端口】;Linux用
ping IP地址nc -zv IP地址 端口
- 临时日志查看:Windows直接用记事本打开error.log;Linux用
tail -f /var/log/应用名/error.log(实时查看)
二、日常巡检:每日10分钟标准化操作
1. 硬件/系统快速检查
Windows服务器:
- 打开资源监视器,查看【CPU】栏整体使用率≤70%、单进程CPU≤30%
- 切换到【内存】栏,查看可用物理内存≥20%
- 切换到【磁盘】栏,选中档案数据盘,查看【%空闲时间】≥50%、【平均磁盘秒/读】≤10ms、【平均磁盘秒/写】≤20ms
Linux服务器:
- 输入
top,按1展开所有CPU核心,查看整体Load Average(1分钟值)≤核心数×0.7
- 输入
df -h,查看所有挂载点中档案数据盘的Use%≤85%
- 输入
iostat -x 1 3,取后2次平均值,查看%util≤70%、r_await≤10ms、w_await≤20ms
2. 核心应用服务状态检查

以主流轻量级组合(Nginx+Tomcat+MySQL+MinIO)为例:
- Web服务Nginx:浏览器访问http://服务器IP:80/nginx_status(需提前配置),或Windows用【服务管理器】、Linux用
systemctl status nginx,确认状态为Active
- 中间件Tomcat:浏览器访问http://服务器IP:8080/(或配置的管理端口),或Windows用【服务管理器】、Linux用
systemctl status tomcat9,确认状态为Active
- 元数据库MySQL:Windows用【MySQL Workbench】本地连接,Linux用
mysql -u root -p输入密码后,查看show processlist;中活跃连接≤最大连接数的80%
- 档案文件库MinIO:浏览器访问http://服务器IP:9000/,输入账号密码登录,确认所有bucket(档案存储桶)状态正常
3. 核心业务快速验证
- 用普通用户账号登录数字档案馆,搜索任意常见档案(如2023年文书档案),确认响应时间≤2秒、结果完整
- 下载1份PDF档案,确认文件完整可打开
三、专项巡检:每月1次深度检查
1. 应用日志ERROR/FATAL清理与分析
以Tomcat9和MinIO为例:
- Tomcat日志:进入目录(Windows:C:\Program Files\Apache Software Foundation\Tomcat 9.0\logs;Linux:/var/log/tomcat9),打开catalina.out或localhost.YYYY-MM-DD.log,搜索
ERRORFATAL关键字,复制内容到Excel记录后,清空30天前的日志文件
- MinIO日志:进入MinIO控制台【Monitoring→Logs】,筛选近7天的ERROR级日志,确认是否有存储异常(如权限不足、磁盘坏道预警)
2. 防火墙规则有效性验证
- Windows防火墙:打开【高级安全Windows防火墙】,删除3个月未使用的入站/出站规则,确认仅开放必要端口(如80、443、8080、3306仅内网、9000仅内网/指定IP)
- Linux防火墙firewalld:输入
firewall-cmd --list-all,删除3个月未使用的规则(如firewall-cmd --permanent --remove-port=1234/tcp),重载规则firewall-cmd --reload
3. 数据库备份完整性验证
以MySQL全量备份为例(假设备份脚本每天凌晨2点执行,保留7天):
- 找到最新的备份文件(如backup_202X-XX-XX.sql.gz)
- Windows用【7-Zip】解压,Linux用
gunzip backup_202X-XX-XX.sql.gz
- 创建临时测试库
create database test_dag_verify;
- 导入备份文件
mysql -u root -p test_dag_verify < backup_202X-XX-XX.sql
- 登录测试库,执行
select count() from 核心档案表名;,对比生产库数量,确认一致后删除测试库drop database test_dag_verify;
四、巡检记录与异常处理
1. 标准化巡检记录模板
复制以下内容到Excel,每次巡检填写:
- 巡检日期、巡检人、巡检类型(日常/专项)
- 每个检查项的【结果】(正常/异常)、【备注】(异常时填写问题详情、处理进度)
- 巡检完成后签字确认
2. 常见异常快速处理
- 档案数据盘剩余空间不足15%:清理临时文件、删除30天前的归档测试文件,或联系运维扩容
- Tomcat服务自动停止:查看catalina.out日志,如果是内存溢出,修改bin/setenv.sh(Linux)或bin/setenv.bat(Windows):
```
Linux setenv.sh
export CATALINA_OPTS="-Xms512m -Xmx2048m -XX:MetaspaceSize=256m -XX:MaxMetaspaceSize=512m"
```
重启Tomcat
systemctl restart tomcat9(Linux)或【服务管理器→重启】(Windows)
- 档案检索响应慢:登录全文检索服务控制台,清理索引缓存,或重建近1个月的归档档案索引