1 Star 1 Fork 0

jackonyang / crawlers-scrapy

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

微博导出JSON格式

[
  {
    "user_id": "1742566624",
    "content": "\u201c\u5979\u6709\u7eb9\u8eab\uff0c\u4e00\u5b9a\u5f88\u597d\u64a9\u3002\u201d \u200b\u200b\u200b\u200b",
    "comment_count": "1064",
    "repost_count": "1360",
    "favorite_count": "5074",
    "collect_count": "5075",
    "status_id": "GugUb6cNH",
    "images": [
      "http://ww4.sinaimg.cn/mw690/67dd74e0gy1fu63v9uvr9j20j51at7a7.jpg",
      "http://ww4.sinaimg.cn/mw690/67dd74e0gy1fu63v9ue67j20j60zktd4.jpg",
      "http://ww4.sinaimg.cn/mw690/67dd74e0gy1fu63v9xpcuj20j21xun6e.jpg",
      "http://ww3.sinaimg.cn/mw690/67dd74e0gy1fu63v9xv3mj20j41fo7ce.jpg",
      "http://ww1.sinaimg.cn/mw690/67dd74e0gy1fu63v9xjssj20j316bgsk.jpg",
      "http://ww4.sinaimg.cn/mw690/67dd74e0gy1fu63vafmggj20j21dz7ad.jpg",
      "http://ww1.sinaimg.cn/mw690/67dd74e0gy1fu63va77inj20j218adlw.jpg",
      "http://ww2.sinaimg.cn/mw690/67dd74e0gy1fu63vaio8lj20j41ez46o.jpg",
      "http://ww4.sinaimg.cn/mw690/67dd74e0gy1fu63vakr73j20j11cn11j.jpg"],
    "video": "",
    "created_at": "2018-08-12 11:03:00",
    "is_need_ocr": false,
    "is_repost": false
  }
]
  • user_id 对象ID, agent_id
  • content 正文
  • comment_count 评论数
  • repost_count 转发数
  • favorite_count 点赞数
  • collect_count 收藏数
  • status_id 状态唯一ID,用于去重,即抓取对象的唯一标志
  • images 图片数组
  • video 视频地址
  • created_at 创建时间
  • is_need_ocr 只有图片,没有正文,需要ocr
  • is_repost 是否为转发微博

微博图片优化抓取策略

https://weibo.cn/mblog/oripic?id=EwLwbivqE&u=67dd74e0gy1fczn3fv20gj20hs0b0wf2

这个地址中的u=67dd74e0gy1fczn3fv20gj20hs0b0wf2参数实际上是图片id,利用这个id可以不去二次发送请求,本地就可以把图片的真实地址拼出来。

http://ww1.sinaimg.cn/mw690/67dd74e0gy1fczn3fv20gj20hs0b0wf2.jpg

其中第一部分 ww1 可以在wx[1-4]之间随机,67dd74e0gy1fczn3fv20gj20hs0b0wf2就是上面的u参数的值,至于最后的文件后缀,实际就是图片ID里的第22位,如果第22位是g那么就是gif格式,如果是j,则是jpg格式。依照这个方法,就能拿到真实地址了。你自己写个函数,把这个过程封装一下,就能直接用了。

Setup

$ pip3 install -r requirements.txt

空文件

简介

取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
1
https://gitee.com/jackonyang/crawlers-scrapy.git
git@gitee.com:jackonyang/crawlers-scrapy.git
jackonyang
crawlers-scrapy
crawlers-scrapy
master

搜索帮助