代码拉取完成,页面将自动刷新
一款开源分布式爬虫软件,如果喜欢这个项目记得加star哈。
MongooCrawler为了解决抓取速度和持久化速度不一致的问题引入了disruptor并发框架
抓取的数据分为两类,一类是文本,一类是url,url暂时使用MD5进行去重,再放入队列文本则会直接进入数据库。
如果想私下交流可以在我blog留言
欢迎访问我的blog:http://blog.csdn.net/flashflight
2017-07-02 增加对数据库连接池druid的支持,提高mysql数据库存储效率
2017-05-03 完成图书爬虫逻辑
2017-04-16 添加了电商图书类商品爬取逻辑
2017-01-12 添加了解析html的逻辑,依赖jsoup包
2017-04-12 添加了一个事例
2017-05-24 开发监控端
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。