家人们,谁懂啊!前段时间帮个街道办整档案数字化,踩的坑能绕单位档案室三圈!说出来都是泪,上次他们没做档案OCR技术制度建设,直接斥巨资买了OCR软件,结果把民国时期的手写档案、80年代的红头文件、2010年后的电子扫描件全一股脑扫了,OCR出来的文字一半是“乱码表情包”,领导要找2018年的低保补贴台账,搜“低保留存”,跳出来的全是“低保休存”“低保留仔”,这谁顶得住?最后没办法,只能手翻纸质档案,花了半个月,还挨了领导一顿训,说白了,就是没把档案OCR技术制度建设当回事儿!
别听网上那些虚头巴脑的,我跟你说,档案OCR技术制度建设核心就是“三个明确”,把这三个明确整明白了,绝对能少走弯路:
啥意思?就是你得在档案OCR技术制度建设里写清楚,哪些档案可以扫成可编辑的OCR档,哪些只能扫成图片档。比如:普通的民生档案(低保、计生、党员材料)可以做OCR识别,方便检索;涉密的技术档案、人事绝密档案,就只能扫成图片,绝对不能转成可编辑的OCR文本,这可是红线!别像之前那国企,啥都扫,最后差点翻车,咱得守好规矩嘛!

这部分是档案OCR技术制度建设的核心!比如扫描要扫300DPI以上,手写的卷边档案要先压平、补光再扫,OCR认字的时候,手写的、印刷的、盖章的,都得分开规则,还有,认字的准确率不能低于95%,不然等于白扫!就像你做奶茶,得明确“茶底用什么茶,糖度多少,冰量多少”,不然做出来的全是“黑暗料理”,OCR出来的东西根本用不了!
这个太重要了!很多人就是没在档案OCR技术制度建设里定责任,出了问题不知道找谁背锅。比如,指定专人负责扫描和OCR操作(别让刚毕业的小年轻乱碰涉密档案),指定专人负责校验识别结果(比如每页都要查,或者抽验10%?看实际情况),指定专人负责数据存储(必须用涉密内网,连外网都不能碰),还有,OCR结果的保存期限、要不要定期备份,这些全写清楚,就像你家里请了保姆,得说清楚“你要做啥,啥不能碰,出问题找谁”,不然保姆把你家金镯子拿出去当了都不知道!
我给你唠三个我总结的血泪教训,都是整档案OCR技术制度建设时踩过的,你可别再踩了: