1 Star 0 Fork 605

黄忠磊 / jackfrued-Python-100-Days

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
06.表单交互和验证码处理.md 1.04 KB
一键复制 编辑 原始数据 按行查看 历史
jackfrued 提交于 2018-06-14 21:35 . 更新了爬虫部分的文档

表单交互和验证码处理

提交表单

手动提交

自动提交

验证码处理

加载验证码

光学字符识别

光学字符识别(OCR)是从图像中抽取文本的工具,可以应用于公安、电信、物流、金融等诸多行业,例如识别车牌,身份证扫描识别、名片信息提取等。在爬虫开发中,如果遭遇了有文字验证码的表单,就可以利用OCR来进行验证码处理。Tesseract-OCR引擎最初是由惠普公司开发的光学字符识别系统,目前发布在Github上,由Google赞助开发。

改善OCR

处理更复杂的验证码

很多网站为了分别出提供验证码的是人还是机器使用了更为复杂的验证码,例如拼图验证码、点触验证码、九宫格验证码等。关于这方面的知识,在崔庆才同学的《Python 3网络爬虫开发实战》有较为详细的讲解,有兴趣的可以购买阅读。

验证码处理服务

Python
1
https://gitee.com/huang-zhonglei/jackfrued-Python-100-Days.git
git@gitee.com:huang-zhonglei/jackfrued-Python-100-Days.git
huang-zhonglei
jackfrued-Python-100-Days
jackfrued-Python-100-Days
master

搜索帮助