代码拉取完成,页面将自动刷新
文档
开发用途:
效率:
sina.weibo.GetFansThread : 10个用户的粉丝/min(使用代理)
目前正在加入多线程,已考虑Connection、爬虫队列同步问题
线程池
代理服务中间层(proxy),利用代理池实现动态更换IP,但请求会出现阻塞,对策是:开启线程监视该请求,超时则放弃请求;(现已找到原因,http有两个超时时间:1.连接超时;2.请求超时;)
怎么做多账号(微博)切换
----- ↑ 已解决 | 未解决 ↓ -----
Concurrent 引入并发库
Connection连接池
redis做爬虫URL队列(LPOP),SolrCloud存储层
加入了一个朋友网爬虫demo,抓取用户关系数据
后面可能会加上新闻的抓取 (考虑到新闻站点抓取较为容易,其实主要本系统主要目的在于爬虫的技术架构,而非所爬的内容) 设计上:
2015-04-21
JSON/HTML --> ANALYZER --> DOMAIN
将获取到的JSON/HTML交给分析器ANALYZER进行处理,最后返回领域实体DOMAIN
考虑如何扩展使用代理服务器来抓取数据,不然会被对方屏蔽
2015-04-28
2015-05-10
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。