关于OCR标注的一些事儿

时间:2022-10-27 08:40:41

作者:欧陆注册科技

浏览: 次

很多人在听到关于ocr转译的时候,大部分人认为这是一个关于图片的标注。前两天我的同事跟我聊天的时候,说了一句OCR是的一种,我问他为什么,他说因为是图片拉框的。但是实际你知道吗,ocr其实是属于文本的,知道为什么吗?请跟着我的脚步一一为您揭开谜题。

OCR标注3.jpg

一、什么是OCR

OCR是什么,英文:Optical Character Recognition,中文名称:光学字符识别,简称OCR。它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。比如:你想要将你看到某的一本杂志其中的一段文字内容复制出来,但是又不能复制,自己输入又非常费时时,我们就可以通过OCR技术转译为文字了。

二、应用场景


目前OCR的应用可以分为四大场景

OCR标注的应用

1.拍照表单类
这一类的数据具有很大的私密性,通过我们的转译技术就可以保存为电子挡,但目前技术仍有难点。如:当前疫情期间,学生都是网络授课,但是老师布置作业好多学生作业仍旧需要手写作业,拍照给老师批改,但是我们的老师,一个一个的批改处理非常的耗时且电脑操作方面比较麻烦。所以当我们能够通过OCR直接转译为文本就能解决非常大的问题,可以批量处理,直接给出结果。


2.数字原生类
这一类数据是最为复杂多样的:各种字体、背景、排列、组合等。而其中最具代表性的便是淘宝图片了,这类图片为商品信息的载体。图片量大,每日更新也是最多的。

3.文档类
这一类数据涉及很多的公共场景,应用于如:车票、发票、外卖单、各类票据类别的存储。

4.自然场景
这一类目前是应用最广泛、最成熟且商用价值最大的场景。如:证件识别、银行卡识别、车牌识别、摄像监控、快递单号识别等。


三、作为一个数据标注员我们可以做什么?

1.OCR目前难点有哪些
1)内容不规则、图片清晰度等、背景干扰等。
2)非简体字识别、相似文字、生僻字、复杂公式符号等
3)定位问题粘粘明显、行间距不清楚,难于标注、字高范围
4)手写体问题是目前的主要难点,因为每个人的个人习惯字体风格均有不同,虽然我们自己能懂,但是机器却很少能懂的。
5)按照识别内容来说目前分为三大类:汉字、英文、阿拉伯数字。数字识别最简单;英文识别仅有26个字母(算上大写52个) ;但是中文就不一样了常用汉字3700、相似文字2278、以及繁简体等,还需要识别出整个字体,是目前最大的难题。


2.OCR识别流程
版面分析 -> 预处理-> 行列切割 -> 字符识别 -> 后处理识别矫正



3.我们可以做什么?
通过上面内容我们可以了解到虽然现在有很多的行业已经在运用这一项技术了,但是目前仍旧有很多的技术难点,那么要攻克这些难点就需要进行机器学习演练,而在在一个过程中则需要大量的数据支撑。所以这些大量的数据就是我们所需要做的了,采集、清洗、标注都是我们可以做的。
1)采集:如手写字体、广告牌、学生作业、各类印刷体拍照收集
2)清洗:去除无效数据、去除噪点数据、快速分类等
3)标注:拉框、标签、转写。


4.ocr标注耗时

ocr拉框一小时拉几个框?

四、标注规则

关于ocr的标注规则,每一个ocr标注项目都有自己的规则,大体有如下规则:
1)属性标注:针对图片分有效数据、无效数据等对整个图片,或范围内的标注
2)框选要求:根据任务类型一般为拉框、多边形等。
3)精度要求:因为文字的像素基本在80-400之间,所以拉框精度,尽量贴合文字但是不要压字体,根据不同的项目要求大体会有些许差异。
4)内容转写:根据项目不同,可能为中文、英文、阿拉伯数字等,一般需要按实际内容转写。
5)顺序标注:很多OCR方面识别是按照顺序来的,因为文本方面的内容一般都有连续性,如上下文这样的,所以我们在做这一点的时候最好是按照内容顺序标注。
6)提交格式:现在技术基本是线上标注的方式,我们只需要标注好了保存提交就可以了,但部分项目因为数据安全的问题,还是会采用线下标注的方式。提交格式需要根据项目要求提交如:json,txt等等
7)温馨提示:标注时无论线上、线下注意随时保存已标注内容,因为有时候没保存就代表了做白工,还有重要的一点,标注时一定要好好的了解清楚标注工具性能还有一些快捷工具,毕竟磨刀不误砍柴工嘛。

好啦,今天的分享就到此结束了,希望大家通过此文能对OCR有初步了解,关于数据标注你有想要知道的请告知小编哟。


本文转载自CSDN人工智能技术社区,出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者与我们联系,我们将及时更正、删除,谢谢。


做AI行业客户的数据参谋