1、算法原理,可以参考 https://zhuanlan.zhihu.com/p/45376274
OCR一般包含两步:
1. detection–>找到包含文字的区域(proposal);
2. classification–>识别区域中的文字。
2、授权链路标签,直接使用百度的开源框架PaddleOCR 来实现;
授权链路标签逻辑:
实现逻辑是先用OCR提取图片文本内容(商家的品牌授权图片和证明,发票等图片混在一起了,得提取全部图片内容,然后再),如果前三行出现 授权 中文或英文关键词则认为这张图片是授权书图片,一个品牌有N张授权图,授权链路=N
2.1 开源ocr作为baseline
感谢开源世界,PaddleOCR打造了一套丰富、领先、且实用的OCR工具库,我们可以基于该项目,搭建自己的ocr服务,并进行定制化开发,针对应用场景训练自己的模型。此前,已经对比过chineseocr-lite开源项目,JD AI-OCR识别,PaddleOCR。其中PaddleOCR在识别精度上表现最好,且可迭代升级。开源项目地址为:PaddleOCR。
2.2 服务部署
参考PaddleOCR部署,其他基于UDF的服务部署,也可参考该项目。
2.3 查询服务
参考TrWebOCR,基于web服务框架flask搭建了ocr识别的后端逻辑,结合flask和jinja2进行前端html渲染和交互逻辑。