代码拉取完成,页面将自动刷新
同步操作将从 gyq999/weibo_spider 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
This is a sina weibo spider built by scrapy
戳这里:微博爬虫,单机每日千万级的数据 && 吐血整理的微博爬虫总结
这个爬虫一开始是需要登陆获得微博cookie的,然后再运行爬虫
如果你的账号是买的,微博判定不是正常账号,会出现滑动宫格验证码,本项目中获取cookie的方案就不适用了, 具体可以参考这篇文章
如果需要构建大规模的微博抓取系统,在本项目的基础上仅仅需要做的就是,购买大量微博账号,维护一个账号池
购买微博账号的地址是这里,访问需要翻墙。
目前我自己维护了一个200+个账号的账号池,并通过redis构建分布式,抓取效果如上图,一分钟可以抓取8000左右的数据,一天数据采集量在1100万
这个账号池,我也是花钱买的,就不Share了。
如果确实有抓取数据的需要,可以联系我,Email:nghuyong@163.com
Python版本:Python3.6
git clone https://github.com/SimpleBrightMan/WeiboSpider.git
# 首先获取cookie,并存入数据库中
python cookies.py
# 然后运行爬虫
python run.py
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。