1 Star 0 Fork 0

RTsien / Code Fragments

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
煎蛋图片下载.py 1.33 KB
一键复制 编辑 原始数据 按行查看 历史
RTsien 提交于 2014-08-26 14:07 . 文件夹未存在时,新建文件夹
#-*- coding:utf-8 -*-
import urllib,urllib2
import re,os
# 设置代理,不需要代理的此段注释掉
# proxy_support = ur.ProxyHandler({'http': '10.19.110.31:8080'})
# opener = ur.build_opener(proxy_support)
# ur.install_opener(opener)
#设置正则表达式
pattern = re.compile(r'<li[\s\S]+?>#(\d+)<[\s\S]+?img src="(http://.+?)"[\s\S]+?</li>')
#全局变量
url_base = 'http://jandan.net/ooxx/page-%s#comments'
img_set = set()
# range是下载的页码范围
for p in range(1000,2000):
url = url_base%p
data = urllib2.urlopen(url).read()
img_list = pattern.findall(data)
print(p,len(img_list))
img_set1 = set(img_list)
img_set = img_set.union(img_set1)
#当前页不足25张图片,说明是最新一页,退出,不查下一页
if len(img_list) < 25 : break
print(u'共有%s张图片'%len(img_set))
for s in img_set:
try:
url = s[1]
gs = s[1].rsplit('.',1)[1]
# 保存路径和文件名称,命名规则:图片楼层号
dir_path = 'g:\\img'
if not os.path.exists(path):
os.mkdir(path)
img_path = dir_path+'\\%s.%s'%(s[0],gs)
urllib.urlretrieve(url,img_path)
print(img_path,'get !')
except:
print "wrong!"
print(s)
raw_input(u'下载完成'.encode("gb2312"))
C
1
https://gitee.com/rtsien/Code-Fragments.git
git@gitee.com:rtsien/Code-Fragments.git
rtsien
Code-Fragments
Code Fragments
master

搜索帮助