代码拉取完成,页面将自动刷新
1. 所有图片都是各位作者付出辛苦劳动得来的,请尊重coser版权。
2. 图片自己下载使用可以,请勿用于商业用途,转载请先取得作者的同意并注明cn及链接。
3. 代码不可直接运行,我留了几个空白需要小伙伴们自己操作填写,拒绝伸手党。
半次元爬虫 版本1.0
更新时间:2018-12-4
作者:JohnnyJYWu
描述:此项目实现了在半次元网站批量下载高清原图,并保存在自定义路径下。
技术博客:机盐
简书:https://www.jianshu.com/p/779aa738bce4
CSDN:https://blog.csdn.net/qq_34907122/article/details/84792125
作者主页url
批量下载某个coser发布的note(图片类型)
作品下的所有高清原图。作者主页url格式:https://bcy.net/u/[作者id]
note(图片类型)
作品,作品储存在作者目录的note文件夹下fat.jpg
,作者展示信息[name].txt
,作者信息对象储存文件[name].info
id:[作品id] [作品title]
[imgname].jpg
*n,作品页截图webscreenshot.jpg
作品展示信息[name].txt
,作品信息对象储存文件[name].info
.info
文件进行对比筛选,仅下载最新发布的作品,本地已有作品不会重复下载。https://bcy.net/item/detail/[作品id]
.info
文件,请勿随意更改或删除Windows 10
Java 10.0.1
git clone https://github.com/JohnnyJYWu/bcy-webcrawler-Java.git
/src/utils/UrlUtils.java
中的savePath
为自己的本地存储目录路径。//图片存储地址
public static final String savePath = "E:\\bcy\\bcyWebCrawler\\";//!!!!这里换成自己本地的储存地址
/phantomjs/ajaxhtml_cookies.js
及/phantomjs/code_cookies.js
中addCookie()方法的value
值为自己的value值。
value值获取方法在技术博客中有提到:https://www.jianshu.com/p/792bf78adbd1
var flag = phantom.addCookie({
'name' : 'sessionid',
'value' : '换成你自己的value',
'domain' : '.bcy.net',
'path' : '/',
'httponly' : false,
'secure' : false,
'expires' : 'Fri, 01 Jan 2038 00:00:00 GMT'
});
/src/bcy/Main.java
中填写相关链接后运行。其中downloadAlbums()
方法为下载某作品页的图片,downloadArtists()
方法为下载某作者的所有note图片类型作品图片。 public static void main(String[] args) {
downloadAlbums();//此方法直接下载作品页图片
downloadArtists();//解析作者页
System.out.println("All Finished");
}
以下以Misa贞喵的作品图片为例进行展示
*.txt
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。