0 Star 0 Fork 42

还行 / go_sexy

forked from 烈冰 / go_sexy 
加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README
MIT

#go_sexy

Go语言实现sexy.faceks.com妹子图爬虫

纯粹是一个练手的项目,里面用到很多Go的特性,例如goroutine、channel、自定义类型、错误处理等等

放上来给大家参考一下,我也是初学golang,有哪些地方写得不好请指正

##更新说明

  • 2015年10月20日 增加了配置文件的功能,把要抓取的网站地址和相关的正则表达式放在json配置文件里
{
	"root":"sexy.faceks.com",
	"regex":{
		"image":[
			{
				"exp":"bigimgsrc=\"([^\"?]+)",
				"match":1,
				"folder":"none"##可选值url,title,none,正则表达式
			}
		],
		"page":[],
		"imgInPage":["\S+/post/\S+"],
		"href":[
			{
				"exp":"\s+href=\"([a-zA-Z0-9_\-/:\.%?=]+)\"",
				"match":1
			}
		]
	}
}

配置文件使用json格式:

  • root:字符串,要抓取的站点地址
  • regex.image:数组,用于匹配页面上的图片地址
  • regex.image.exp:字符串,匹配图片的正则表达式
  • regex.image.match:整数,指定图片地址在正则表达式里的哪个分组,0表示整个表达式匹配的内容,1表示第一个分组
  • regex.image.folder:字符串,可输入url,title,none或正则表达式
  • url:使用图片所在页面的url的name(源码为path.Base(url))做文件夹名称
  • title:使用页面的title
  • none:不建文件夹,所有图片都放在一起
  • 正则表达式:可以匹配页面上的内容来生成文件夹名称
  • regex.page:数组,存放正则表达式,只有符合正则表达式的页面才会被抓取并解析,留空表示所有页面都抓取并解析
  • regex.imgInPage:数组,存放正则表达式,用于指定图片存在于哪些页面里
  • regex.href:数组,用于匹配页面上的超链接
  • regex.href.exp:字符串,存放匹配超链接的正则表达式
  • regex.href.match:整数,指定超链接在正则表达式里的哪个分组,0表示整个表达式匹配的内容,1表示第一个分组

##实现原理 实现原理

The MIT License (MIT) Copyright (c) 2015 烈冰 Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the "Software"), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions: The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software. THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.

简介

Go语言版本妹子图抓取爬虫,项目里用到很多go的语言特性。正所谓寄学习于娱乐,欣赏妹子的同时还可以学到东西,欢迎大家评鉴 展开 收起
MIT
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
1
https://gitee.com/sunqb/go_sexy.git
git@gitee.com:sunqb/go_sexy.git
sunqb
go_sexy
go_sexy
master

搜索帮助