同步操作将从 luosl/webmagicx 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
webmagicx是一款可配置爬虫框架,webmagicx中的webmagic表示该框架扩展于webmagic,x表示该框架是一个基于xml的配置型爬虫框架。 得益于webmagic强大的可扩展能力,本框架实现了以下特性:
jdk1.8以上
安装 webmagicx
webmagicx 提供了二进制安装包 webmagicx 下载页面,你可以在这个页面下载 webmagicx 的最新版本。
下载完成后,将webmagicx-xx.zip解压,你会得到以下目录结构:
webmagicx
spiderConf → 这里存放了一些爬虫配置的模板文件
douban.spider.xml → 抓取豆瓣电影的示例
baike_yixue.spider.xml → 抓取百度百科疾病诊断信息的示例
template.spider.xml → 配置模板
bin → 存放命令脚本的文件夹
webmagicx-cli.bat → windos 客户端命令
webmagicx-cli.sh → linux 客户端命令
webmagicx-server.bat → windos 服务端命令
webmagicx-server.sh → linux 服务端命令
conf → 项目配置
log4j.properties → 项目日志配置文件
lib → 项目依赖 jar 包
....
执行第一个爬虫程序
进入webmagicx的bin目录
在 windows 环境下,你可以按住Shift键+鼠标右键 选择 "在此处打开命令" 打开windows命令行。输入命令:
webmagicx-server.bat -confPath ../spiderConf/douban.spider.xml
在linux 环境下 首先需要为 .sh 文件赋予执行权限:
chmod a+x ./*.sh
然后执行命令:
./webmagicx-server.sh -confPath ../spiderConf/douban.spider.xml
待爬虫运行一段时间后,在bin目录中会生成 豆瓣电影.csv 文件和 img 文件夹,分别存放了电影信息和电影封面,如下图所示:
打开浏览器 输入网址 http://localhost:9000/spider/state/douban 便可查看爬虫的运行状态:
项目才刚刚开始,大家有什么建议和想法欢迎一起交流。同时也希望有兴趣和精力的盆友一起来完善这个项目
468248192
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。