1 Star 0 Fork 1

gott51010 / TTKun

forked from natsuki_kining / TTKun 
加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

TTKun

目录

  1. 软件架构设计介绍
  2. 使用帮助

1.软件架构设计介绍

1.1 设计简介

* context包简单的模拟了spring的IOC跟DI。
* crawler包实现具体的爬虫功能:通过解析自定义的爬虫规则,执行相应的操作。

1.2 爬虫执行流程介绍

1. 通过读取配置文件的crawler.url,自动获取规则文件。
2. 通过fastjson解析规则文件转成实体类。
3. JsonRuleAction通过解析的json实体,通过委派模式调用相应的action类执行相应的操作。

2.使用帮助

2.1 下载

选择最新版本根据自己电脑的系统环境选择相应的压缩包下:下载地址

2.2 解压

此工具为免安装版,解压后就可以用,不需要安装。

2.3 编写自己的自定义规则

  1. 根据rule.json里定义的规则和自己想爬取数据,编写自己的自定义规则.
  2. 文件命名为网站的uri加上.json
  3. 写好后放到rule文件夹里。
  4. 如果不会写,可以提到issues里。

2.4 修改配置文件

  1. 打开application.properties
  2. 修改application.properties
    2.1 修改crawler.url的值为自己想爬取的网页地址。
    2.2 修改crawler.name的值为自己下载文件文件的名称。
    2.3 修改crawler.save.path的值为自己下载文件保存的地址。
    2.4 crawler.chapter.start为从此章节开始下载,值为标题的内容。
    2.5 crawler.chapter 为只下载此章节的内容,值为标题的内容。
    2.6 crawler.rule.path 为规则文件的地址,默认为当前文件夹下的rule文件夹。
    2.7 download.use.multithreading.enable默认为true,如果为true则开启多线程模式,根据download.manga.thread.pool.size,download.chapter.thread.pool.size里的配置,下载的速度会比单线程高出很多。

3 运行run.bat文件。

空文件

简介

TTKun 展开 收起
Java
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
Java
1
https://gitee.com/yomiyomi/TTKun.git
git@gitee.com:yomiyomi/TTKun.git
yomiyomi
TTKun
TTKun
master

搜索帮助