1 Star 0 Fork 0

暮光(rayping) / bcy-webcrawler-Java

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

此项目旨在学习交流,希望所有使用的小伙伴们清楚以下几点:

1. 所有图片都是各位作者付出辛苦劳动得来的,请尊重coser版权。

2. 图片自己下载使用可以,请勿用于商业用途,转载请先取得作者的同意并注明cn及链接。

3. 代码不可直接运行,我留了几个空白需要小伙伴们自己操作填写,拒绝伸手党。


bcy-webcrawler-Java v1.0

半次元爬虫 版本1.0

更新时间:2018-12-4

作者:JohnnyJYWu

描述:此项目实现了在半次元网站批量下载高清原图,并保存在自定义路径下。

技术博客:机盐

简书:https://www.jianshu.com/p/779aa738bce4

CSDN:https://blog.csdn.net/qq_34907122/article/details/84792125

实现功能

  • 根据作者主页url批量下载某个coser发布的note(图片类型)作品下的所有高清原图。作者主页url格式:https://bcy.net/u/[作者id]
  • 目前仅支持下载作者note(图片类型)作品,作品储存在作者目录的note文件夹下
  • 生成以 作者名称 命名的文件夹,同时在文件夹中保存该作者主页相关信息,包括:作者头像fat.jpg,作者展示信息[name].txt,作者信息对象储存文件[name].info
  • 作者每次发布的作品以 作品专辑 的概念建立文件夹,下载的图片分别储存在相应文件夹下,为防止命名重复,文件夹命名规则为id:[作品id] [作品title]
  • 每个 作品专辑 文件夹包含:该作品的所有图片[imgname].jpg*n,作品页截图webscreenshot.jpg作品展示信息[name].txt,作品信息对象储存文件[name].info
  • 当下载某作者的作品时,会根据.info文件进行对比筛选,仅下载最新发布的作品,本地已有作品不会重复下载。
  • 可选择仅根据某页作品专辑url下载指定作品页面的图片。作品页url格式:https://bcy.net/item/detail/[作品id]
  • 多线程下载图片,采用线程池管理
  • 支持下载仅粉丝可见作品,需手动登录账号关注作者,并在PhantomJs所用的js脚本中添加cookie
  • 不支持智能下载未下载的图片。下载前筛选信息是基于.info文件,请勿随意更改或删除
  • 目前仅支持下载note图片类型作品,article文字、ganswer回答、video视频及set连载类型作品已预留可后续扩展

运行环境&软件包

安装

git clone https://github.com/JohnnyJYWu/bcy-webcrawler-Java.git

使用说明

  1. 更改/src/utils/UrlUtils.java中的savePath为自己的本地存储目录路径。
//图片存储地址
public static final String savePath = "E:\\bcy\\bcyWebCrawler\\";//!!!!这里换成自己本地的储存地址
  1. 更改/phantomjs/ajaxhtml_cookies.js/phantomjs/code_cookies.js中addCookie()方法的value值为自己的value值。 value值获取方法在技术博客中有提到:https://www.jianshu.com/p/792bf78adbd1
var flag = phantom.addCookie({
  'name'     : 'sessionid',
  'value'    : '换成你自己的value',
  'domain'   : '.bcy.net',
  'path'     : '/',
  'httponly' : false,
  'secure'   : false,
  'expires'  : 'Fri, 01 Jan 2038 00:00:00 GMT'
});
  1. 根据提示在/src/bcy/Main.java中填写相关链接后运行。其中downloadAlbums()方法为下载某作品页的图片,downloadArtists()方法为下载某作者的所有note图片类型作品图片。
	public static void main(String[] args) {
		downloadAlbums();//此方法直接下载作品页图片
		
		downloadArtists();//解析作者页

		System.out.println("All Finished");
	}

效果展示

以下以Misa贞喵的作品图片为例进行展示

她的主页:Misa贞喵

下载页面:#cos正片# #Fate/GrandOrder# #远坂凛# 远坂凛情人节礼装ver.

下载成功后的目录结构

下载中控制台信息

展示信息*.txt

FAQ

如果有任何问题可发布issue,或在我的 简书 & CSDN博客 评论留言,我会尽量及时查看回复。

空文件

简介

取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
1
https://gitee.com/rayping/bcy-webcrawler-Java.git
git@gitee.com:rayping/bcy-webcrawler-Java.git
rayping
bcy-webcrawler-Java
bcy-webcrawler-Java
master

搜索帮助