README.md · 乾坤盒子/MongooCrawler

MongooCrawler

一款开源分布式爬虫软件，如果喜欢这个项目记得加star哈。
MongooCrawler为了解决抓取速度和持久化速度不一致的问题引入了disruptor并发框架
抓取的数据分为两类，一类是文本，一类是url，url暂时使用MD5进行去重，再放入队列文本则会直接进入数据库。
如果想私下交流可以在我blog留言
欢迎访问我的blog：http://blog.csdn.net/flashflight

MongooCrawler的优势

1、分布式
参考[Spiderman](http://git.oschina.net/l-weiwei/Spiderman2)的实现正是基于redis的，但是这样redis就成为一个单点问题，那么如果网络出问题，或者redis服务器宕机会造成部分数据无法爬取这样降低用户体验，mongoocrawler参照redis cluster实现真集群部署，节点之间可以相互通讯，当部分节点无法访问时也不影响爬虫的可用性。
2、验证码
这些框架并没有提供验证码的解决方案，MongooCrawler会根据作者的亲身经历提供一些解决方案
3、cookie
cookie提供自动跟踪的开关，流行的部分开源爬虫框架并不能有效解决sso单点登录中跨域携带cookie的问题，MongooCrawler会提供解决方案。
4、反爬策略
流行的部分爬虫框架没有提供简单易用的访问频次的控制，必须依赖用户手动硬编码调用函数控制。user-agent等头信息也没提供简单易用的管理接口，完全依赖用户硬编码。
5、高性能
流行的部分爬虫框架并没有实现弹性控制，没有根据不同节点的性能差异有效利用不同节点的硬件资源，没有做熔断机制和监控，这些都是MongooCrawler会做的
### 更新说明

2017-07-02 增加对数据库连接池druid的支持，提高mysql数据库存储效率
2017-05-03 完成图书爬虫逻辑
2017-04-16 添加了电商图书类商品爬取逻辑
2017-01-12 添加了解析html的逻辑，依赖jsoup包
2017-04-12 添加了一个事例
2017-05-24 开发监控端

下一步计划

1、部署到服务器上试运行演示网站
2、集群支持(未开发)

乾坤盒子 / MongooCrawler

MongooCrawler

MongooCrawler的优势

下一步计划

简介

发行版 (1)

贡献者

近期动态

乾坤盒子 / MongooCrawler .gitee-modal { width: 500px !important; }

MongooCrawler

MongooCrawler的优势

下一步计划

简介

发行版 (1)

开源评估指数源自 OSS-Compass 评估体系，评估体系围绕以下三个维度对项目展开评估：

贡献者

近期动态

搜索帮助

乾坤盒子 / MongooCrawler