学用系列|PearOCR,无限量、可离线、跨平台的文本识别新兵

最近不少老师提到有图片识别成文本的需求,白描、天若OCR、wps稻壳内置文本识别都是不错的选择,不过这些图片ocr都涉及将本地图片上传服务器的操作,或是需要调用百度、腾讯、讯飞等大厂的OCR API(识别引擎与相关接口),如果部分私密图片需要识别的话,不妨可以试试OCR的“新兵”——PearOCR

PearOCR 主要特色

完全免费——市面上提供OCR的软件大部分有各种限制(识别次数或者文件大小),需要收费才能解除限制,而PearOCR的识别完全免费,没有次数和文件大小限制。

本地运算——市面上的OCR软件大部分是利用大公司的API进行识别,需要把图片上传到服务器再返回识别结果,这个过程有可能导致个人数据的泄露和滥用。PearOCR基于自研的轻量化识别引擎,整个过程都在本地运算,不会把图片或者识别结果上传,从原理上保护数据安全。

优化排版——PearOCR的识别结果采用和原图文本相同位置的排版,便于进行文字的提取和分析

无需下载——PearOCR所有过程均在网页端完成,无需下载任何软件,点开即用

PDF导出——提供导出PDF的功能,把图片和文本都集在同一个PDF中,方便存档和对照,同时提供了不同的PDF排版选项

PearOCR 支持本地图片和剪贴板,所有的运算都是纯前端完成,图片和识别数据都不会经过服务器,把 OCR 做成一个网页只是为了无需下载点开即用,网页加载完成后断开网络一样可以正常识别,不会和服务器有数据交互。

快速上手PearOCR

除了通过打开选择对话框,还可以直接把文件拖到识别框内进行识别

PearOCR提供了三种方式查看识别的结果文本。

一是带位置信息的文本(推荐),可以按照原图中出现文本的位置进行排版,这种方式能十分方便地从杂乱的文本中提取所需信息。

为了方便对照,PearOCR提供了图片衬底的功能,能在图片上面对应位置显示文本,更方便地查看识别结果

二是纯文本,把识别的文本位置从上到下排列组合成一段文本,这种方式适用于规则的从上到下排版的文本段。

三是表格,识别的结果以附带识别置信度的表格形式呈现,这种方式用于评估识别效果。

当然,在识别过程中有时候会出现错误的识别结果,这时候可以手动修正。在纯文本模式下可以直接修正,表格模式不支持修正,这里着重要说明的是位置文本模式下的修正。默认情况下,位置文本不能编辑,需要打开编辑开关后才能编辑文本,绿色表示经过编辑的文本。

完成识别之后,PearOCR支持导出识别结果为PDF用于归档和日后查阅,并且支持隐藏文字的方式,能直接在图片上选择和复制文本,PearOCR支持先预览PDF的导出效果

小结

PearOCR相较于白描等云OCR的前辈来说是个小字辈,其自研的OCR引擎在识别效率和准确度方面还有很大提升空间,不过如果只是临时应急使用或是考虑私密内容识别,PearOCR值得体验哦。

好啦,今天的分享就到这里啦,欢迎大家也来分享哦。

我们下次聊。