爬昵称网站昵称

2024-12-18 技术教程

项目需要继续爬点昵称~~~先上代码

#coding=utf-8importurllib,urllib2importrefrombs4importBeautifulSoupimporttimeimportsysreload(sys)sys.setdefaultencoding('utf-8')#获取要下载图片的整个页面的信息defgetHtml(url):page=urllib2.urlopen(url)html=page.read()#printhtmlreturnhtml#筛选数据并打印到本地defgetImg(html):soup=BeautifulSoup(html,'html.parser')dls=soup.find_all('dl',attrs={'class':'feed_list'})forindexinrange(len(dls)):p=dls[index].find_all('p')[0]printp.textf=open("nichengnan.txt","a")forindexinrange(len(dls)):nicheng=dls[index].find_all('p')[0].textf.write(nicheng)f.write('\r\n')f.close()user_agent='Mozilla/5.0(Macintosh;IntelMacOSX10_10_4)AppleWebKit/600.7.12(KHTML,likeGecko)Version/8.0.7Safari/600.7.12'headers={"User-Agent":user_agent}page=201length=0whilepage<231:url='http://www.qzone.cc/wangming/fav/list_'+str(page)+'.html'print"正在爬取第"+str(page)+"页......."#print"这里呢"request=urllib2.Request(url,headers=headers)html=getHtml(request)getImg(html)page=page+1time.sleep(0.5)f=open('nichengnan.txt','r')lines=f.readlines()print"当前一共"+str(len(lines))+"条昵称"f.close()

爬的是网址

http://www.qzone.cc/wangming/day/list_1.html

跟上一个帖子里基本一样。。。找到规则后直接BS爬取。区别就是这里是手动输入定义要爬取的页码数，不必像那个一样一个网址一个网址复制。不过手动改写网址貌似还是有点麻烦。。。。后面可以通过分析最后一页的“下一页”和前面的有啥区别。稍后看看能不能解决。先这样