68 Star 166 Fork 63

乾坤盒子 / MongooCrawler

加入 Gitee
与超过 800 万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README.md

MongooCrawler

一款开源分布式爬虫软件,如果喜欢这个项目记得加star哈。
MongooCrawler为了解决抓取速度和持久化速度不一致的问题引入了disruptor并发框架
抓取的数据分为两类,一类是文本,一类是url,url暂时使用MD5进行去重,再放入队列文本则会直接进入数据库。
如果想私下交流可以在我blog留言
欢迎访问我的blog:http://blog.csdn.net/flashflight

MongooCrawler的优势


1、分布式
参考[Spiderman](http://git.oschina.net/l-weiwei/Spiderman2)的实现正是基于redis的,但是这样redis就成为一个单点问题,那么如果网络出问题,或者redis服务器宕机会造成部分数据无法爬取这样降低用户体验,mongoocrawler参照redis cluster实现真集群部署,节点之间可以相互通讯,当部分节点无法访问时也不影响爬虫的可用性。
2、验证码
这些框架并没有提供验证码的解决方案,MongooCrawler会根据作者的亲身经历提供一些解决方案
3、cookie
cookie提供自动跟踪的开关,流行的部分开源爬虫框架并不能有效解决sso单点登录中跨域携带cookie的问题,MongooCrawler会提供解决方案。
4、反爬策略
流行的部分爬虫框架没有提供简单易用的访问频次的控制,必须依赖用户手动硬编码调用函数控制。user-agent等头信息也没提供简单易用的管理接口,完全依赖用户硬编码。
5、高性能
流行的部分爬虫框架并没有实现弹性控制,没有根据不同节点的性能差异有效利用不同节点的硬件资源,没有做熔断机制和监控,这些都是MongooCrawler会做的
### 更新说明

2017-07-02 增加对数据库连接池druid的支持,提高mysql数据库存储效率
2017-05-03 完成图书爬虫逻辑
2017-04-16 添加了电商图书类商品爬取逻辑
2017-01-12 添加了解析html的逻辑,依赖jsoup包
2017-04-12 添加了一个事例
2017-05-24 开发监控端

下一步计划


1、部署到服务器上试运行演示网站
2、集群支持(未开发)

仓库评论 ( 18 )

你可以在登录后,发表评论

简介

一款低入侵分布式爬虫框架,仅仅依赖少量第三方包,具有多进程多线程,集成反爬、验证码破解方案,自由定制,cookie自动管理,多数据源支持(database,nosql,es),客户端-服务端分离(充分利用ip)集群支持等特性) 展开 收起
Java
Apache-2.0
取消

MongooCrawler

贡献者

全部

近期动态

加载更多
不能加载更多了
Java
1
https://gitee.com/coliza/MongooCrawler.git
git@gitee.com:coliza/MongooCrawler.git
coliza
MongooCrawler
MongooCrawler
feature/monitor

搜索帮助