爬虫到百度贴吧,爬取自己的小说
最近在微信里看了一个小说叫《阴阳代理人》的,看到一半,发现断了,作者说把后面的部分放到了百度贴吧,去了贴吧发现,文章看起来比较费劲,乱糟糟的,所以为了我的小说,弄个了爬虫,去给我弄下来。
#!/user/bin/envpython#-*-coding:utf-8-*-importurllib2importurllibimportre#小说章节类classZHANGJIE:#初始化传入地址def__init__(self,zjUrl,Num):self.zjUrl=zjUrlself.Num=Num#传入页码,获得网页源代码,只看精品defgetPage(self):url=self.zjUrl+str(self.Num)request=urllib2.Request(url)response=urllib2.urlopen(request)returnresponse.read()#获取每章链接资源defgetNum(self):webcon=self.getPage()Num=re.findall('<ahref="/p/(\d+)"',webcon)globalNum_rNum_r=Num[::-1]returnNum_r#每题内容类classNEIRONG:#初始化,传入地址def__init__(self,nrUrl,Num):self.nrUrl=nrUrlself.Num=Num#传入资源页码,获得网页源代码,只看楼主defgetPage(self):url=self.nrUrl+str(self.Num)+'?see_lz=1'request=urllib2.Request(url)response=urllib2.urlopen(request)returnresponse.read()#获取小说章节和标题defgetTitle(self):webcon=self.getPage()title=re.search('>(.*)</h2>',webcon).group(1)returntitle#获得小说内容并打印换行defgetCon(self):webcon=self.getPage()try:con=re.search('支持兰大,一定要记得投票哦!推荐票!(.*)(</div><br>)',webcon).group(1)con_n=re.sub('<br>','\n',con)returncon_nexceptAttributeError:return'广告内容,已经忽略'#写入文件defwriteDate(self):con_t=self.getTitle()con_n=self.getCon()try:withopen('/tmp/yydlr.txt','a')asf:f.write('\n')f.write('\n')f.write(con_t)f.write(con_n)exceptIOError:print'写入异常'foriinrange(3050,1650,-50):ZJ=ZHANGJIE('http://tieba.baidu.com/f/good?kw=%E9%98%B4%E9%98%B3%E4%BB%A3%E7%90%86%E4%BA%BA&ie=utf-8&cid=0&pn=',i)ZJ.getNum()foriinNum_r:NR=NEIRONG('http://tieba.baidu.com/p/',i)NR.writeDate()print'小说已经准备好啦'
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。