国税总局发票查验平台验证码识别方案,识别率达98%
全国增值税发票查验平台验证码 6.19 更新 有人说我文章没有干货只有思路,这里我分享一下源码,训练及部署的教程: https://blog.csdn.net/kerlomz/article/details/86706542 至于国税总局的发票查验平台JS这块的逆向可以参考: https://blog.csdn.net/qq_35228149/article/details/106818057 验证码分析 如图所示:图像验证码,识别指定颜色的文字。 识别思路 首先有几条道路可以通向罗马,这里不分先后优劣一一讲述。 颜色提取的思路 ,可以采用HSV/K-means聚类进行颜色的分离提取:效果如下: 弊端显而易见,会有较大的特征丢失,识别率有较大的提升瓶颈,经过测试,中英文+汉字的识别率在90%左右。 不分离颜色的思路,该方案有两种处理方法: (1) 同时预测颜色和字符内容 ,这种方法看起来比较正统,但是成本较高,需要标注每张图的 颜色 和 字符内容 ,这个要求有多高呢,一般的打码平台是 无法 提供这样的结果的,打码平台只返回对应颜色的内容,只能人工标注,那么需要多少样本呢?笔者训练的识别率98的模型用了100w左右的样本。一张这样的样本标注假设需要0.1元,那么100w样本需要10w标注费用,假设0.01元,也要1w的标注费用。但是验证码高质量的人工标注几乎是不存在的,因为很多样本