1 Star 1 Fork 0

ghwngzw / sina_sars_spider

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
README.md 924 Bytes
一键复制 编辑 原始数据 按行查看 历史
ghwngzw 提交于 2023-02-01 06:21 . update README.md.

sina_sars_spider

介绍

本项目是一个通过新浪网爬取非典疫情新闻标题、发布日期、url和文本的爬虫项目。

代码文件说明

  • url_spider:爬取新浪网上有关非典疫情新闻的标题、发布日期和url
  • text_spider:爬取新浪网上有关非典疫情新闻的标题、发布日期、url和文本
  • data:json文件的存放目录,json文件中包含新闻的标题、发布日期和url
  • articles:新闻文本的存放目录,文本以发布日期和新闻标题命名,其中包含新闻来源url和新闻内容(由于一些文章声明未经许可不得转载,所以此处不包含具体文章)

使用说明

  1. 克隆本项目至本地
  2. 如果只需要非典相关新闻的标题、日期和url而不需要文本,运行url_spider.py即可
  3. 如果需要非典相关新闻的标题、日期、url和文本,运行text_spider.py即可
Python
1
https://gitee.com/ghwngzw/sina_sars_spider.git
git@gitee.com:ghwngzw/sina_sars_spider.git
ghwngzw
sina_sars_spider
sina_sars_spider
master

搜索帮助