代码拉取完成,页面将自动刷新
同步操作将从 乾坤盒子/MongooCrawler 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
一款开源分布式爬虫软件,如果喜欢这个项目记得加star哈。
MongooCrawler为了解决抓取速度和持久化速度不一致的问题引入了disruptor并发框架
抓取的数据分为两类,一类是文本,一类是url,url暂时使用MD5进行去重,再放入队列文本则会直接进入数据库。
如果想私下交流可以在我blog留言
欢迎访问我的blog:http://blog.csdn.net/flashflight
2017-07-02 增加对数据库连接池druid的支持,提高mysql数据库存储效率
2017-05-03 完成图书爬虫逻辑
2017-04-16 添加了电商图书类商品爬取逻辑
2017-01-12 添加了解析html的逻辑,依赖jsoup包
2017-04-12 添加了一个事例
2017-05-24 开发监控端
你可以在登录后,发表评论
仓库评论 ( 0 )