小白的python爬虫,40代码教你爬取豆瓣小说
这篇文章写了很久了,一直没有发布;
爬虫学的差不多了,觉得这篇文章对新手实践还是有些作用的。毕竟这也是我刚学爬虫的时候练习的,爬取了比较好爬的网站,也比较经典;多余的解释不说了,代码里每一行都有注释,解释的很清楚;
后续有时间的话还会发布一些爬虫文章的;
直接上代码:
import requestsfrom bs4 import BeautifulSoupfrom lxml import etree#抓取豆瓣小说的 书名、评分;page = 0 #定义页数初始值;lists_book = [] #定义书名列表;lists_grade = [] #定义评分的列表;for u in range(0,20): #循环20次,每一次循环爬取一页,即:抓取20页; basic_url = 'https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=' + str(page) + '&type=T' page += 20 #每循环一次 +20,适应链接变化; headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36' } #发送请求 response = requests.get(basic_url, headers=headers, timeout=10) #requests请求; response.encoding = 'utf-8' #设置编码 htm = response.text #返回text文本; #解析请求 selector = etree.HTML(htm) #利用 etree.HTML 初始化 book_name = selector.xpath('//*[@id="subject_list"]/ul/li/div[2]/h3/a/text()') #获取书名 grade = selector.xpath('//*[@id="subject_list"]/ul/li/div[2]/div[2]/span[2]/text()') #获取评分; #将书名存入到lists_book列表; for i in book_name: lists_book.append(i.strip()) #去除字符串空格,存入列表; while '' in lists_book: #如果列表中有空元素,则删除空元素; lists_book.remove('') #将评分存入到lists_grade列表; for i in grade: lists_grade.append(i.strip()) #去除字符串空格,存入列表; while '' in lists_grade: #如果列表中有空元素,则删除空元素; lists_grade.remove('')print(lists_book) #输出爬取的书名列表;print(len(lists_book)) #输出列表的长度,即:爬取了多少本书print(lists_grade) #输出评分的列表;print(len(lists_grade)) #输出评分列表的长度;为了和书的数目核对,防止偏差;print("评分最高: "+ str(max(lists_grade)) + "\n" + "书名: " + lists_book[lists_grade.index(max(lists_grade))])
运行后结果输出到了屏幕上,并没有存入数据库,后续需要也可以继续添加代码将爬取结果存入数据库;
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。