核酸扫码登记体验有感(如何提高OCR的文字正确识别率)

article/2025/9/11 9:00:04

近几年,新冠疫情持续反复,核酸检测已成为了我们日常生活的一部分,甚至有人开玩笑说朋友邻居见面问候语从“吃了吗你?”变成了“今儿核酸了?”。核酸检测全员常态化,需要大量的志愿者协助医生进行身份证扫描工作,而我有幸成为了个人所在社区的一名志愿者。身份证扫描工作机械而简单,不过由于职业本能反应,让我的核酸扫码登记志愿者的感受也不同起来。

与其他核酸扫码登记志愿者一样,首先是领取防疫物资,穿戴防护服,接受扫码岗位工作内容培训,前往应点位上岗。现场工作主要是对参加检测的居民进行身份证扫描或身份信息录入,需要注意的是扫描时需要核对信息:身份证信息于扫灭结果是否一致,一致则放行,不一致则手动纠错。在扫描过程中,尽管系统识别在大多数情况下都是准确的,但也有例外。在两个多小时的时间内,我发现基本上每10个人中就有1位居民的身份信息自动识别有误差,其中有的是将身份证号里的8识别为0;有的是居民姓名中的生僻字无法扫描或被认错,如“;还有的是姓名里的字被识别为字形相近的字,如“”识别成“”识别成“;再有的是姓名里的字被识别为字,如“”识别成“京力”等。这些识别错误不仅让现场的手动录入工作增多,增加了核酸检测排队时间,也导致了部分信息核实不到位,导致个别居民核酸检测后查不到结果。而产生这些错误的原因主要与信息登记系统采用的OCR文字识别技术有关。

身份扫描使用到的OCR识别技术是什么?

OCR(optical character recognition)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题。而衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。

因此核酸身份扫面工作就是将身份证上的(图片)信息翻译为计算机(文字)信息并存储供后续使用。那么在这个过程中,OCR的识别工作需要做一些什么操作,如何提高识别速度,降低拒识率和误识率呢?

OCR识别处理操作项:

1、图像输入、预处理:

图像输入:对于不同的图像格式,有着不同的存储格式,不同的压缩方式。

预处理:主要包括二值化,噪声去除,倾斜较正等

2、二值化:

由于摄像头拍摄的图片,大多数是彩色图像,彩色图像所含信息量巨大,对于图片的内容,我们可以简单的分为前景与背景,为了让计算机更快的,更好的识别文字,我们需要先对彩色图进行处理,使图片只前景信息与背景信息,可以简单的定义前景信息为黑色,背景信息为白色,这就是二值化图了。

3、噪声去除:

对于不同的文档,我们对噪声的定义可以不同,根据噪声的特征进行去噪,就叫做噪声去除

4、倾斜较正:

由于一般用户,在拍照文档时,都比较随意,因此拍照出来的图片不可避免的产生倾斜,这就需要文字识别软件进行较正。

5、版面分析:

将文档图片分段落,分行的过程就叫做版面分析,由于实际文档的多样性,复杂性,因此,还没有一个固定的,最优的切割模型。

6、字符切割:

由于拍照条件的限制,经常造成字符粘连,断笔,因此极大限制了识别系统的性能,这就需要文字识别软件有字符切割功能。

7、字符识别:

这一研究,已经是很早的事情了,比较早有模板匹配,后来以特征提取为主,由于文字的位移,笔画的粗细,断笔,粘连,旋转等因素的影响,极大影响特征的提取的难度。

8、版面恢复:

我们希望识别后的文字,仍然像原文档图片那样有序排列着,段落不变,位置不变,顺序不变的输出到word文档,pdf文档等。

9、后处理、校对:

根据特定的语言上下文的关系,对识别结果进行较正,就是后处理。

我们现在已了解了OCR识别处理操作内容,那么日常生活中,除了核酸检测用到的身份扫描,OCR识别还有哪些应用场景呢?

OCR识别应用场景

我们每天都被文字所环绕,像我们的工作文案、书本、证件、发票、商品的介绍都是文字组成的,OCR技术的运用,可以让有些工作变得简单化、智能化。

1、证件OCR识别

证件OCR识别技术一开始是基于PC的,近几年开始向移动端发展,主要有android,ios平台的SDK,目前成熟的有身份证识别,行驶证识别,驾驶证识别,护照识别等。我们在核酸检测用到的身份扫描就是这类OCR识别的应用。

2、银行卡OCR识别

银行卡OCR识别主要用于绑卡,是一项非常有技术含量的细分OCR技术,目前有一些APP已经在用,如支付宝、微信等。

3、名片OCR识别

名片OCR识别这一类技术也非常成熟了,目前市场上名片管理的APP也非常多,多半已经使用这类技术。

4、文档OCR识别

其实OCR技术最早的时候就是用于识别文档的,基于扫描技术,主要针对图书,报刊等,把这些纸质文档进行电子化,目前中英文识别率也非常高。近几年也开始用于移动端的文档识别,扫一扫就可以识别。

5、票据OCR识别

票据OCR识别顾名思义用于各式各样的票据识别,基于模板机制,需要针对不同的票据,定制不同的识别要素,这项技术也称要素识别OCR,最早的其实运用的是银行行业,现在企业、金融、电信机构都在使用。

6、车牌OCR识别

车牌识别技术相信大家都不会觉得陌生,智能交通、小区停车场等,都有很好的应用,车牌识别的原理其实技术对车牌进行OCR识别,再进行比对的过程。也是相当成熟的技术。

不难看出,OCR识别应用已深入到了我们生活的方方面面,那OCR识别应用中是否还有技术壁垒待克服?

OCR识别方法及难点

OCR技术的出现到发展,改变了传统纸质媒介的概念,给图书数字化发展带来了翻天覆地的變化,它实现了文字识别功能,提高了资料加工的效率,为文献的存档、数据查询开辟了新的篇章。市场上也有成熟的策略供我们使用:

识别方法 

  • 谷歌的开源OCR引擎Tesseract
  • 大公司的OCR开放平台(比如百度),使用他们的字符识别API
  • 传统方法做字符的特征提取,输入分类器,得出OCR模型
  • 暴力的字符模板匹配法
  • 大杀器:基于深度学习下的CNN字符识别

OCR技术自1929年由德国的科学家Tausheck提出至今已有近90年研究历史,已趋于成熟,并且在商业中已经有很多落地项目,但是在误识率方面还面临巨大难题。

OCR技术的难点

虽然图像的前期与后期工作较为繁琐复杂,但比起传统人工手动文字录入,OCR技术的使用在速度、准确、便捷等方面略胜一筹,人会因为疲劳等各种原因犯错,但机器不会,因此使用OCR技术加工整体消耗的人力物力都比人工著录要少的多。尽管OCR技术很先进,在保证图像扫描质量的前提下,后续的文字识别过程仍会遇到下面几种问题:

  1. 文字切分错字。在进行文字自动切分时,部分固定词组会因为分行而造成切分错误。
  2. 相近文字识别不出来。目前对于那些结构特征相近的字,OCR技术仍不能完全分辨出来,如分和兮,人或入,艺和芝等。

3)英文单词识别困难。比起汉语,英文字母识别更困难,尤其是中文、英文和数字混合排列的时候,问题最为明显,原因在于结构大都比较相近,扫描的时候会由于光线问题造成识别混乱,如a和d,大写i和小写L,小写L和1,G或6等。

正是由于OCR技术的不够完善,不能做到100%的正确识别,后期的人工校对是提高识别率的重要环节,若是使用人工校对,不仅要面临时间、人力、财力等巨大压力,而且准确率也难以得到保障。

数据质量自动剖析技术可降低OCR误识率

据统计,目前国内市场上可查的数据标注公司将近40家。专家表示,人工智能领域整体融资金额中,约有15-30%都投向了数据标注市场。由此,保守估计国内数据标注市场规模已达150亿到300亿元。档案、报纸、医院的处方等传统纸质类资料的数字化是数据标注的重要分支,如何将纸质资料的转为电子格式储存,对其内容进行准确的文档标注以方便检索,是很多拥有大量纸质资料的机构的难题。目前,数据标注的手段以人工标注为主,OCR识别辅助。整个标注环节由标注到数据质量核查都存在着大量的人工介入。因此,如何对文档标注进行高效准确的数据质量核查,降低成本,提升准确度已经是该行业发展面临的瓶颈问题 。而我有幸参与了某大型图书馆的数据标注质量核验工作,以下为大家分享我的处理方案。

项目背景

该客户作为规模居世界前列的大型图书馆,拥有海量报纸,在对纸质信息进行数字化的过程中,需要将大量纸质报纸转换为电子档案存档。扫描出图片存档可能比较简单,但是当需要快速准确的在大量报纸中检索具体信息时,还是需要进行进一步的文档标注。报纸文档标注需要将排版、文字以及图画准确地标注并陈列。要确保标注的准确率,在部分报纸年代较为久远的情况下更加困难。客户使用数据标注技术,将大量报纸以电子文档的形式标注出区块内容后,期望达到以下的目的:版面内容全部制作无遗漏;篇目置错误率小于1%;文字识别错误率小于1%,;原文文字印刷错误,不记录错误率内;篇目不能出现压框压字问题;栏目文字框不能多次框选与修改;篇目自定义标题不能为空;广告不要提取文字内容。因此,该客户需要对报纸标注后的数据进行数据质量检查,以发现数据标注中的问题,这也能帮助提高后续的数据标注质量。传统的核查方式是人工核查,但是人工核查会造成以下问题:一是人工检查不但需要投入雇佣人工的成本,而且繁重反复的检查工作由人工完成也很容易出现错误;二是如果一条一条检查数据则时间成本较高,如果是按比例抽查则核查准确度和检查的全面性较低。依靠华矩的自动化数据质量检查工具则可以更迅速、更准确的定位数据质量问题。如此就可以针对发现的数据质量问题,制定更有针对性的标注方案。

解决方案:

  1. 数据质量检测对OCR识别出的数据处理上分阶段 (A,B,C)进行核查

    通过数据处理上分阶段 (A,B,C)进行核查,我们可以这类问题:

    1. 报纸版面内容录入有遗漏。
    2. 篇目置标有错误。
    3. 文字识别错误,以及文字简繁体不统一,标点符号形式不统一。
    4. 文字内容压在框线上。
    5. 篇目标题出现空值。
    6. 报纸录入信息重复。
    7. 报纸信息遗漏。
    1. 对存入的数据进行迭代式的系统自动审查,从而降低误识率

    1. 发现初始问题
    2. 形成问题检查规则
    3. 迭代优化数据质量提升规则
    4. 取代人工核查,提升效率及降低劳动强度
    1. 依据确定的规则可以进行自动的数据修复

     

     采用该方案理由:

    1. 快速实现海量数据探查,发现数据问题:自动快速分层扫描检测,内置数据管理快速处理机制可以在很短时间内发现异常数据,并快速定位到问题数据。
    2. 自下而上建立数据标准与业务规则:基于外置业务库与内置业务规则库结合,自动匹配规则进行数据清洗、优化、补全处理。
    3. 快速实现数据质量核查:无需大量人力物力投入,实现海量数据的数据监控。

    数字化水平不断提升,如何高效便捷完成数据检查是一个重大问题。如何通过数据探查与自动化数据质量监控技术,成为可以帮助相关机构快速找到数据规律,区别于人工臆断的标准及人为处理的低效与不科学,快速准确形成数据处理规则与标准,搭建可重复循环、自动化数据质量核查机制,有效节省数据清洗优化时的人工介入时间,提高数据处理效率和数据质量,“快”、“省”、“准”地完成数据质量核查的手段,欢迎大家一起交流探讨。


http://chatgpt.dhexx.cn/article/4ike67hJ.shtml

相关文章

ORB-SLAM2 特征点法SLAM 单目 双目 rgbd相机SLAM 单应/本质矩阵恢复运动 小图大图地图优化

ORB-SLAM2 ORB特征点法SLAM 支持单目、双目、rgbd相机 安装测试 本文github链接 orbslam2 imu ORB-SLAM是一个基于特征点的实时单目SLAM系统,在大规模的、小规模的、室内室外的环境都可以运行。 该系统对剧烈运动也很鲁棒,支持宽基线的闭环检测和重…

opencv4算法库学习笔记(5万多字超长干货——纪念奋战的自己)

整理于2020年初三个月的日夜积累。。。 参考链接 opencv安装 安装脚本链接:https://github.com/milq/milq/blob/master/scripts/bash/install-opencv.sh 源码编译安装参考:https://blog.csdn.net/liuli2008212/article/details/128169266?spm1001.2…

【数字图像处理课程设计】期中、期末综合考试题目整理总结(共四个图像处理算法应用题)

目录 一、下面两幅图像中有几处不同,编程把它们找出来、并在图中突出显示(关键步骤不能调用内置函数)。 1.算法原理 2.解题步骤 3.程序代码 4.处理结果 二、下图含有干扰条纹(moir pattern)、并且低灰度区域的细…

MATLAB各个产品概述----哪些产品需要安装?哪些产品不需要安装?阅完了然

MATLAB产品概述 文章目录 1 MATLAB2 Simulink3 5G Toolbox(5G工具箱)4 Aerospace Blockset(航空区块集)5 Aerospace Toolbox(航空航天工具箱)6 Antenna Toolbox(天线工具箱)7 Audio…

Latex相关符号

函数、符号及特殊字符 声调 语法效果语法效果语法效果\bar{x}\acute{\eta}\check{\alpha}\grave{\eta}\breve{a}\ddot{y}\dot{x}\hat{\alpha}\tilde{\iota} 函数 语法效果语法效果语法效果\sin\theta\cos\theta\tan\theta\arcsin\frac{L}{r}\arccos\frac{T}{r}\arctan\frac{L…

一文读懂人脸识别技术

2019-08-27 17:06:26 本文内容涵盖人脸识别发展历程、市场研究、核心技术、商业应用以及产业落地、个人看法等干货研究。注意,本文干货满满,约有2万7千字,强烈建议大家先收藏后学习! 01 发展史 1. 人脸识别的理解 人脸识别(Fa…

综述 | 基于特征的视觉同步定位和建图

点击上方“计算机视觉工坊”,选择“星标” 干货第一时间送达 Feature‑based visual simultaneous localization and mapping: a survey Rana Azzam1 Tarek Taha2 Shoudong Huang3 Yahya Zweiri4 接收日期:2019 年 10 月 30 日/接受时间:…

ORB_SLAM2 源码解析 单目初始化器Initializer(三)

目录 一、地图点初始化 二、重新记录特征点的匹配关系 1、构建旋转直方图 1.1、在半径窗口内搜索当前帧F2中所有的候选匹配特征点GetFeaturesInArea 1.2、表示一个图像像素相当于多少个图像网格列和行 1.4、遍历圆形区域内的所有网格,寻找满足条件的候选特征点&…

Zotero文献管理软件使用指南——入门篇

一、安装与注册 zotero下载地址 二、文献导入 2.1 方法一:Zoreto Connector插件 2.1.1 下载插件 还是刚刚那个网址,点击红色方框下载插件。 下载完成之后浏览器上方会有如下图所示的小图标 2.1.2 导入举例 以知网为例 找到你想看的…

【EndNote】功能强大的文献管理软件

EndNote X9是一款功能强大的文献管理软件,使用这款EndNote X9破解版可以让你直接将其安装到Windows操作系统上使用,如果您正需要这款免费版工具,马上下载EndNote X9使用吧。 基本简介 EndNote 是一款主流文献管理软件,有数以百万计的研究人员、学生和图书管理员使用…

文献管理软件Zotero配置及使用

文献管理软件-Zotero常用插件安装及配置使用 一、Zotero安装与同步盘配置 1、下载Zotero并安装2、配置Zotero (1)配置同步盘(以onedrive为例)——如果不配置同步盘,这一步可以跳过(2)配置输出文…

文献管理软件//Zotero导入文献的五种方式(九)

Zotero导入文献的五种方式 一、利用zotero插件自动获取pdf文件二、利用DOI获取pdf文件三、从剪贴板导入pdf文件3.1 导入单篇文献3.2 导入多篇文献 四、利用endnote格式导入文献五、通过已下载的PDF文件导入文献 一、利用zotero插件自动获取pdf文件 首先,可以通过以…

文献管理软件Mendeley基本使用教程

一、文献管理软件 文献管理软件是学者或者作者用于记录、组织、调阅引用文献的计算机程序,其便利之处在于: 1.直接联网不同数据库进行文献检索,提高效率; 2.方便快捷管理文献信息,包括文摘、全文、笔记记录、以及其…

文献管理软件Zotero常用插件安装及配置使用

文献管理软件-Zotero常用插件安装及配置使用 一、Zotero安装与同步盘配置1、下载Zotero并安装2、配置Zotero(1)配置同步盘(以onedrive为例)——如果不配置同步盘,这一步可以跳过(2)配置输出文献…

文献管理软件zotero|电脑和平板文献管理实现同步

高效管理文献——实现PC和ipad同步 作为一个科研打工人,读论文是我们每个人基本天天都要做的事,但论文越来越多如何实现论文高效管理?利用文献管理软件zotero,能实现高效管理文献。 之前也用过,mendeley软件也用过&a…

科研必备文献管理软件EndNote

什么是ENDNOTE? Endnote是一款被广泛使用的文献管理软件,其是SCI(Thomson Scientific 公司)的官方软件,支持国际期刊的参考文献格式有3776 种【也可以自定义期刊引用格式】。 软件非常方便科研狗进行文献整理&#xf…

四款主流文献管理软件,总有一款适合你

本文作者:生信不是人学的 看文献是每个科研人都必须做的事情 但随着阅读量的增加,面对几十甚至上百篇文献,单纯靠自己的记忆来整理文献是一件不太可能的事情。 因此需要一款合适的软件来帮助我们进行文献管理,提高科研效率。 接下…

如何让vim编辑器永久显示行号

在Linux环境下的编辑器有vi、vim、gedit等等。进入这些编辑器之后,为了方便我们需要编辑器显示出当前的行号,可偏偏编辑器默认是不会显示行号的。我们有二种办法可以解决: 第一种是,手动显示:在vim命令行模式下输入 …

【LINUX-vim命令】设置vim显示行号

【vim命令】设置vim显示行号 linux环境下,使用vim查看或编辑文件,vim打开的文件默认是不显示行号的,问题:怎么才能让vim打开的文件显示行号呢? 1. 临时显示行号 set number2. 永久显示行号 # 打开 /etc/vimrc文件 vi…

vim显示/隐藏行号,永久显示行号

显示行号 在vim命令中输入下面的内容可以给文本文件显示行号: :set nu或:set number 隐藏行号 下面的命令可以将行号隐藏: :set nonu或:set nonumber 永久显示行号 修改vim配置文件可以设置默认显示或隐藏行号: vim /etc/vimrc #全局…