1 Star 0 Fork 0

RTsien / Code Fragments

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
糗事百科.py 1.51 KB
一键复制 编辑 原始数据 按行查看 历史
RTsien 提交于 2014-08-26 11:42 . new file
# -*- coding:utf-8 -*-
import re
import threading
import urllib2
import time
import os
number = 0
sqlku = []
def getDoc():
global number, sqlku
page = 1
print u"正在获取页面..."
while True:
while number <= 10:
number += 1
myUrl = "http://m.qiushibaike.com/hot/page/" + str(page)
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = {'User-Agent': user_agent}
req = urllib2.Request(myUrl, headers=headers)
myResponse = urllib2.urlopen(req)
myPage = myResponse.read()
unicodePage = myPage.decode("utf-8")
myItems = re.findall('<div.*?class="content".*?title="(.*?)">(.*?)</div>', unicodePage, re.S)
#返回当前页面所有的匹配结果的列表到myItems列表
for item in myItems:
sqlku.append([item[0].replace('\n', ''), item[1].replace('\n', '')])
#把内容处理之后加入到数据库
page += 1
def showDoc():
global number, sqlku
i = 1
for item in sqlku:
key = raw_input(u'请输入回车来看段子(输入quit结束本程序):'.encode("gb2312"))
if key == "quit":
os._exit(0)
i += 1
print u'时间:',item[0]
print u'内容:',item[1]
if i == 20:
number -= 1
i = 1
threading.Thread(target=getDoc).start()
time.sleep(2)
threading.Thread(target=showDoc).start()
C
1
https://gitee.com/rtsien/Code-Fragments.git
git@gitee.com:rtsien/Code-Fragments.git
rtsien
Code-Fragments
Code Fragments
master

搜索帮助