Web爬虫 - Web爬虫 - 开源软件

ssssssss-team/spider-flow

新一代爬虫平台，以图形化方式定义爬虫流程，不写代码即可完成爬虫。

Java

Web爬虫

|

2年多前

黄亿华/webmagic

webmagic 是一个无须配置、便于二次开发的爬虫框架，它提供简单灵活的API，只需少量代码即可实现一个爬虫。

Java

Web爬虫

|

接近2年前

AJay13/ECommerceCrawlers

实战多种网站、电商数据爬虫。包含：淘宝商品、微信公众号、大众点评、招聘网站、闲鱼、阿里任务、scrapy博客园、微博、百度贴吧、豆瓣电影、包图网、全景网、豆瓣音乐、某省药监局、搜狐新闻、机器学习文本采集、fofa资产采集、汽车之家、国家统计局、百度关键词收录数、蜘蛛泛目录、今日头条、豆瓣影评️️️。微信爬虫展示项目:

Python

Web爬虫

|

2个月前

自风/Spiderman

强力 Java 爬虫，列表分页、详细页分页、ajax、微内核高扩展、配置灵活

Java

Web爬虫

|

1年前

鬼画符/templatespider

扒网站工具，看好哪个网站，指定好URL，自动扒下来做成模版。所见网站，皆可为我所用！

Java

Web爬虫

|

7个月前

xtuhcy/Gecco

Gecco 是一款用java语言开发的轻量化的易用的网络爬虫，整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等优秀框架。

Java

Web爬虫

|

接近4年前

自风/Spiderman2

二代蜘蛛侠，此版本完全重新开发，比上一代更加强大（性能，易用，架构，分布式，简洁，成熟）

Java

Web爬虫

|

6个月前

代码神童/YayCrawler

分布式爬虫系统，简单使用，高级配置。可扩展，减轻开发量，能docker化，适应各种急切需求核心框架：WebMagic, Spring Boot ，MongoDB, ActiveMQ ,Spring + Quartz，Spring Jpa ， Druid，Redis， Ehcache ，SLF4J、Log4j2， Bootstrap + Jquery 等，不详细列举了

Java

Web爬虫

|

5年前

zorlan/蓝天采集器

蓝天采集器是一款开源免费的爬虫系统，仅需点选编辑规则即可采集数据，可运行在本地、虚拟主机或云服务器中，几乎能采集所有类型的网页，无缝对接各类CMS建站程序，免登录实时发布数据，全自动无需人工干预！是网页大数据采集软件中完全跨平台的云端爬虫系统

PHP

Web爬虫

|

3个月前

tikazyq/crawlab

Crawlab 是一个使用 Golang 开发的分布式爬虫管理平台，支持Python、NodeJS、Go、Java、PHP等多种编程语言以及多种爬虫框架

Go

Web爬虫

|

3年多前

易水风萧/wind-bell

风铃虫是一款轻量级的高效爬虫工具，配置简单，方便二次开发，能抓取js渲染的网页，可以抓取任何数据，支持保存网页快照，智能防封杀，天然适合分布式。

开源

Java

Web爬虫

|

2年前

牛咖-neocrawler nodejs 的爬虫系统。特点：支持web界面方式的摘取规则配置（css selector & regex）；包含无界面的浏览器引擎（phantomjs），支持js产生内容的抓取；用http代理路由的方式防止抓取并发量过大的情况下被对方屏蔽； nodejs none-block 异步环境下的抓取性能比较高；中央调度器负责网址的调度（同一时间片内一定数量的抓取任务中根据网站的权重来决定派发任务量；支持多种抓取实例并存，定制摘取引擎和存储方式。

NodeJS

Web爬虫

|

接近7年前

liinux/ghost-login

专门用来解决爬虫采集相关网站数据时模拟自动登录，验证码自动识别的问题；欢迎加入一起开发完善。

Java

Web爬虫

|

4年多前

ecitlm/Node-SpliderApi

基于node+express爬虫 API接口项目,包括全国高校信息、成语诗歌、星座运势、历史的今天、音乐数据接口、图片壁纸、搞笑视频、热点新闻资讯详情接口数据

NodeJS

Web爬虫

|

接近2年前

linzhaoquan/xx小说阅读网站

springboot【小说阅读网站】，多线程抓取小说数据(单本或者批量)，持久化到MySQL数据库，能定时跟源站数据同步=小说定时更新。通过jsoup采集数据到mysql数据，redis作为缓存框架，减轻服务器压力。部署在linux，网站UI套纵横中文网！

Java

Web爬虫

|

16天前

智能硬件	IOT/物联网/边缘计算
车载应用	智能家居
自动驾驶/无人机	机器人
5G/通讯	低代码
科研论文	量子计算
芯片开发	Web 3.0
隐私计算	云原生

按钮(Button)	文本框(EditText)	布局(Layout)	图形图像(Image)
进度条(Progress)	菜单(Menu)	弹窗(Popup)	选择器(Selector)
文本组件(TextView)	列表组件(ListView)	加载器(Loading)	提醒(Notification)
视图切换(View Transition)	滑杆(Slider)	图表(Chart)	绘图组件(Draw)
计数器(Counter)	动画(Animate)	验证码(Captcha)	多媒体(Multimedia)
条形码(Barcode)	高级UI组件	地图(Map)	OpenHarmony 游戏(Gaming)
网络(Networking)	通讯(Communication)	支付(Payment)	数据库(Database)
硬件驱动(Drivers)	OpenHarmony 教程指南	OpenHarmony工具集	OpenHarmony 应用
华为移动服务(HMS)	权限(Permissions)	工具包(Toolkit)	底层组件
手势控制(Gesture)

中英文分词	支付开发包	安全开发相关	常用工具包
Excel工具包	条形码/二维码	模板引擎	桌面UI组件/框架
网络开发包	语音处理	网络工具	网络服务
数据挖掘	作业/任务调度	编程语言/脚本语言	缓存组件
Markdown工具包	搜索引擎	微服务	工作流
图表组件	权限管理	报表工具	代码生成器
IoC/AOP框架	图像处理	规则引擎	JSON工具
日志工具包	Spring Boot 扩展	验证码	算法/数学计算
Node 扩展	流程引擎/工具	动画开发	移动通信

AI-人工智能	VR/AR
机器学习/深度学习	计算机视觉/人脸识别
自然语言处理	大模型

微信开发包	微信小程序/小游戏
微信应用	微信小游戏

搜索帮助