代码拉取完成,页面将自动刷新
同步操作将从 皮球爸爸/Invoice 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
电子发票(PDF)识别与验真
1、支持电子发票(PDF)的读取
目前 仅支持普通发票 ,不足以在生产环境使用,如果您想解析其他类型发票可以自行研究,或者在issues中提交讨论。
2、验真
代码中有使用用友apilink的接口验真(0.1~0.2元/次,比较贵)
网上也有其他付费接口,如阿里云市场、乐税网等。价格、稳定性不好说。
通过验证码识别,然后调用国税局官网查询接口这个会有不少坑,等以后有时间再研究。
网上的验证码识别率比较高的,价格在2万左右(源码+训练模型)。
1)使用pdfbox提取pdf文本内容,通过正则匹配到部分属性
2)第一步无法获取全部有效的属性信息,通过关键字拿到定位信息,使用定位的区域,通过pdf的区域读取问题,然后再结合正则进一步匹配得到其他有效属性信息。
该项目核心识别代码来源于github上的fantasyxxj的einvoice项目,在此基础上做的改动调整,在此感谢。
springboot
pdfbox
从git导入IDE即可
参考demo中的电子发票读取
效果如下:
1、批量读取电子发票并导出到excel
这个网上其实有案例,python写的居多。
2、发票验真
难点:验证码识别、接口秘钥生成算法(频繁变动)、反爬虫技术等(IP黑名单等)
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。