实战多种网站、电商数据爬虫。包含:淘宝商品、微信公众号、大众点评、招聘网站、闲鱼、阿里任务、scrapy博客园、微博、百度贴吧、豆瓣电影、包图网、全景网、豆瓣音乐、某省药监局、搜狐新闻、机器学习文本采集、fofa资产采集、汽车之家、国家统计局、百度关键词收录数、蜘蛛泛目录、今日头条、豆瓣影评️️️。微信爬虫展示项目:
扒网站工具,看好哪个网站,指定好URL,自动扒下来做成模版。所见网站,皆可为我所用!
爬虫管理系统,支持集群,弹性伸缩。支持运行feapder、scrapy、selenium、platwright等各种框架及脚本
Crawlab 是一个使用 Golang 开发的分布式爬虫管理平台,支持Python、NodeJS、Go、Java、PHP等多种编程语言以及多种爬虫框架
基于.NET的音乐搜索与播放软件(编程语言:C#,爬取4个平台:酷我/网易云/酷狗/QQ)
基本思路:
1、模拟搜索:通过关键字,获取歌曲列表
2、获取歌曲关键信息(歌曲ID之类的唯一标识)
3、使用指定方法(某个url),根据歌曲ID获取歌曲播放地址
4、将歌曲下载到本地,实现下载或播放
限制:vip音乐大多没法爬取(酷我除外),而且为试听品质
代码内容相对较少,代码编写规范,个人认为是很好的入门project
一个Qt开发的可以替代爬虫的网页数据采集软件,它最重要的特点就是,降低了采集网页数据的门槛,由至少必须掌握一门编程语言降低到只要会操作电脑即可。