1 Star 0 Fork 2

w312033591 / weibo_spider

forked from gyq999 / weibo_spider 
加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

WeiboSpider

This is a sina weibo spider built by scrapy

Update 2018/7/28

戳这里:微博爬虫,单机每日千万级的数据 && 吐血整理的微博爬虫总结

Update 2018/7/27

这个爬虫一开始是需要登陆获得微博cookie的,然后再运行爬虫

如果你的账号是买的,微博判定不是正常账号,会出现滑动宫格验证码,本项目中获取cookie的方案就不适用了, 具体可以参考这篇文章

如果需要构建大规模的微博抓取系统,在本项目的基础上仅仅需要做的就是,购买大量微博账号,维护一个账号池

购买微博账号的地址是这里,访问需要翻墙。

目前我自己维护了一个200+个账号的账号池,并通过redis构建分布式,抓取效果如上图,一分钟可以抓取8000左右的数据,一天数据采集量在1100万

这个账号池,我也是花钱买的,就不Share了。

如果确实有抓取数据的需要,可以联系我,Email:nghuyong@163.com

使用本项目

Python版本:Python3.6

git clone https://github.com/SimpleBrightMan/WeiboSpider.git
# 首先获取cookie,并存入数据库中
python cookies.py
# 然后运行爬虫
python run.py

空文件

简介

微博爬虫,爬去微博语料,情感分析,user-agent池,充足IP,scrapy,mongodb 展开 收起
Python
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
Python
1
https://gitee.com/null_386_9385/weibo_spider.git
git@gitee.com:null_386_9385/weibo_spider.git
null_386_9385
weibo_spider
weibo_spider
master

搜索帮助