Press "Enter" to skip to content

OCR文本识别

1、算法原理,可以参考 https://zhuanlan.zhihu.com/p/45376274

OCR一般包含两步:

1. detection–>找到包含文字的区域(proposal);

2. classification–>识别区域中的文字。

2、授权链路标签,直接使用百度的开源框架PaddleOCR 来实现;

授权链路标签逻辑:

实现逻辑是先用OCR提取图片文本内容(商家的品牌授权图片和证明,发票等图片混在一起了,得提取全部图片内容,然后再),如果前三行出现 授权 中文或英文关键词则认为这张图片是授权书图片,一个品牌有N张授权图,授权链路=N

2.1 开源ocr作为baseline

感谢开源世界,PaddleOCR打造了一套丰富、领先、且实用的OCR工具库,我们可以基于该项目,搭建自己的ocr服务,并进行定制化开发,针对应用场景训练自己的模型。此前,已经对比过chineseocr-lite开源项目,JD AI-OCR识别,PaddleOCR。其中PaddleOCR在识别精度上表现最好,且可迭代升级。开源项目地址为:PaddleOCR

2.2 服务部署

参考PaddleOCR部署,其他基于UDF的服务部署,也可参考该项目。

2.3 查询服务

参考TrWebOCR,基于web服务框架flask搭建了ocr识别的后端逻辑,结合flask和jinja2进行前端html渲染和交互逻辑。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注