代码拉取完成,页面将自动刷新
淘宝、京东、拼多多、1688、京喜信息爬虫。方便自动化的获取指定关键词的商品链接、商品价格、商品名称、店铺名称、店铺链接等信息。配合Tkinter的GUI界面,可以清晰监测运行状态。
欢迎提供建议和程序改进!
免责声明
- 本程序仅供用于交流学习原理使用。禁止用于商业活动或其他非法用途。
- 对于被爬虫网站请遵守robots协议指引爬取数据。
- 对于不遵守以上规定的,程序编写者不承担任何责任。
pip install -r requirements.txt
,安装所需包。通过使用WebDriver,Selenium可以操作市场上主流浏览器。通过以下链接可以前往下载站点。下载后将其放置在本程序文件夹内即可。
注意需要使用与您浏览器安装版本相对应的WebDriver。
Google Chrome |
MS Edge |
Selenium-Install Drivers指引
程序默认使用Google Chrome浏览器,如果您需要使用其他浏览器,请按照下方指引更改代码。
options = webdriver.ChromeOptions()
更改为对应浏览器,如Edge则更改为options = webdriver.EdgeOptions()
driver=webdriver.Chrome(options=options)
更改为对应浏览器,如Edge则更改为driver=webdriver.Edge(options=options)
详细的指引可以参阅Selenium的Webdriver文档,点击此处跳转
拼多多、京喜平台因技术原因,使用半自动化方案,手动保存浏览器的请求,使用对应程序进行读取并保存成为CSV文件。无需使用Selenium环境。如何获取HAR文件可至HAR文件获取
文件名 | 备注 |
---|---|
\ functions | 自定义包 |
GetCookie.py | 用于自动化获取登录cookie |
jdSpider.py | 京东商城爬虫程序 |
taobaoSpider.py | 淘宝网爬虫程序 |
1688Spider.py | 阿里巴巴1688爬虫程序 |
error.wav | 错误提示音乐 |
requirements.txt | pip依赖列表 |
jingxi_HAR_reader.py | 京喜HAR读取程序 |
pdd_HAR_reader.py | 拼多多HAR读取程序 |
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。