1 Star 1 Fork 0

test / get-email-by-tieba

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
README.md 992 Bytes
一键复制 编辑 原始数据 按行查看 历史
昌维 提交于 2017-05-10 15:32 . Update README.md

get-email-by-tieba

用于抓取贴吧发帖中的手机号和电子邮箱的一个爬虫

技术栈:Python,MySQL

开发时间:2015.7

开发规模:1人,1天。

项目简介:

一个python写的多线程爬虫,可以对指定贴吧或者指定帖子主题的发帖内容中的手机号,邮箱进行多线程抓取,并持久化存储在数据库中。

项目优点:

多线程抓取,性能高效。模块化开发,比如说数据持久化函数可以替换成其他方式存储,数据过滤可以替换成别的正则表达式,自定义抓取需要的内容。

项目缺点:

代码不够优雅,容错不够,未设置超时重试,错误重试机制,如果网络环境不好,或者抓取的目标网站有反爬虫策略,那么该爬虫将会无法正常工作。

项目总结:

自己看了一些写得很好,很规范的专业爬虫,发现自己离他们的距离还是很遥远。写好一个专业级的项目不容易。

1
https://gitee.com/android_ios_test/get-email-by-tieba.git
git@gitee.com:android_ios_test/get-email-by-tieba.git
android_ios_test
get-email-by-tieba
get-email-by-tieba
master

搜索帮助