常用网络爬虫模块是什么

2025-01-03 技术教程

小编给大家分享一下常用网络爬虫模块是什么，希望大家阅读完这篇文章后大所收获，下面让我们一起去探讨吧！

urllib模块

urllib库是python中自带的模块，也是一个最基本的网络请求库，该模块提供了一个urlopen()方法，通过该方法指定URL发送网络请求来获取数据。

urllib 是一个收集了多个涉及 URL 的模块的包

urllib.request 打开和读取 URL

三行代码即可爬取百度首页源代码：

importurllib.request#打开指定需要爬取的网页response=urllib.request.urlopen('http://www.baidu.com')#或者是#fromurllibimportrequest#response=request.urlopen('http://www.baidu.com')#打印网页源代码print(response.read().decode())

加入decode()是为了避免出现下图中十六进制内容

加入decode()进行解码后

下面三种本篇将不做详述

urllib.error 包含 urllib.request 抛出的异常

urllib.parse 用于解析 URL

urllib.robotparser 用于解析 robots.txt 文件

requests模块

requests模块是python中实现HTTP请求的一种方式，是第三方模块，该模块在实现HTTP请求时要比urllib模块简化很多，操作更加人性化。

以GET请求为例：

importrequestsresponse=requests.get('http://www.baidu.com/')print('状态码：',response.status_code)print('请求地址：',response.url)print('头部信息：',response.headers)print('cookie信息：',response.cookies)#print('文本源码：',response.text)#print('字节流源码：',response.content)

输出结果如下：

状态码：200请求地址：http://www.baidu.com/头部信息：{'Cache-Control':'private,no-cache,no-store,proxy-revalidate,no-transform','Connection':'keep-alive','Content-Encoding':'gzip','Content-Type':'text/html','Date':'Sun,10May202002:43:33GMT','Last-Modified':'Mon,23Jan201713:28:23GMT','Pragma':'no-cache','Server':'bfe/1.0.8.18','Set-Cookie':'BDORZ=27315;max-age=86400;domain=.baidu.com;path=/','Transfer-Encoding':'chunked'}cookie信息：<RequestsCookieJar[<CookieBDORZ=27315for.baidu.com/>]>

这里讲解一下response.text和 response.content的区别:

response.content是直接从网络上面抓取的数据,没有经过任何解码,所以是一个 bytes类型

response.text是将response.content进行解码的字符串,解码需要指定一个编码方式, requests会根据自己的猜测来判断编码的方式,所以有时候可能会猜测错误,就会导致解码产生乱码,这时候就应该使用 response.content.decode(‘utf-8’)

进行手动解码

以POST请求为例

importrequestsdata={'word':'hello'}response=requests.post('http://www.baidu.com',data=data)print(response.content)

请求headers处理

当爬取页面由于该网页为防止恶意采集信息而使用反爬虫设置，从而拒绝用户访问，我们可以通过模拟浏览器的头部信息来进行访问，这样就能解决反爬虫设置的问题。

通过浏览器进入指定网页，右击鼠标，选中“检查”，选择“Network”，刷新页面后选择第一条信息，右侧消息头面板将显示下图中请求头部信息

例如：

importrequestsurl='https://www.bilibili.com/'headers={'user-agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/81.0.4044.129Safari/537.36'}response=requests.get(url,headers=headers)print(response.content.decode())

网络超时

在访问一个页面，如果该页面长时间未响应，系统就会判断该网页超时，所以无法打开网页。

例如：

importrequestsurl='http://www.baidu.com'#循环发送请求50次forainrange(0,50):try:#timeout数值可根据用户当前网速，自行设置response=requests.get(url,timeout=0.03)#设置超时为0.03print(response.status_code)exceptExceptionase:print('异常'+str(e))#打印异常信息

部分输出结果如下：

代理服务

设置代理IP可以解决不久前可以爬取的网页现在无法爬取了，然后报错——由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败的问题。

以下网站可以提供免费代理IPhttps://www.xicidaili.com/

例如：

importrequests#设置代理IPproxy={'http':'117.45.139.139:9006','https':'121.36.210.88:8080'}#发送请求url='https://www.baidu.com'response=requests.get(url,proxies=proxy)#也就是说如果想取文本数据可以通过response.text#如果想取图片，文件，则可以通过response.content#以字节流的形式打印网页源代码,bytes类型print(response.content.decode())#以文本的形式打印网页源代码，为str类型print(response.text)#默认”iso-8859-1”编码，服务器不指定的话是根据网页的响应来猜测编码。

Beautiful Soup模块

Beautiful Soup模块是一个用于HTML和XML文件中提取数据的python库。Beautiful Soup模块自动将输入的文档转换为Unicode编码，输出文档转换为UTF-8编码，你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了，然后，仅仅需要说明一下原始编码方式就可以了。

例如：

frombs4importBeautifulSouphtml_doc="""<html><head><title>TheDormouse'sstory</title></head><body><pclass="title">TheDormouse'sstory<pclass="story">Onceuponatimetherewerethreelittlesisters;andtheirnameswere<ahref="http://example.com/elsie"class="sister"id="link1">Elsie</a>,<ahref="http://example.com/lacie"class="sister"id="link2">Lacie</a>and<ahref="http://example.com/tillie"class="sister"id="link3">Tillie</a>;andtheylivedatthebottomofawell.<pclass="story">..."""#创建对象soup=BeautifulSoup(html_doc,features='lxml')#或者创建对象打开需要解析的html文件#soup=BeautifulSoup(open('index.html'),features='lxml')print('源代码为：',soup)#打印解析的HTML代码

运行结果如下：

<html><head><title>TheDormouse'sstory</title></head><body><pclass="title">TheDormouse'sstory<pclass="story">Onceuponatimetherewerethreelittlesisters;andtheirnameswere<aclass="sister"href="http://example.com/elsie"id="link1">Elsie</a>,<aclass="sister"href="http://example.com/lacie"id="link2">Lacie</a>and<aclass="sister"href="http://example.com/tillie"id="link3">Tillie</a>;andtheylivedatthebottomofawell.<pclass="story">...</body></html>

用Beautiful Soup爬取百度首页标题

frombs4importBeautifulSoupimportrequestsresponse=requests.get('http://news.baidu.com')soup=BeautifulSoup(response.text,features='lxml')print(soup.find('title').text)

运行结果如下：

百度新闻——海量中文资讯平台

看完了这篇文章，相信你对常用网络爬虫模块是什么有了一定的了解，想了解更多相关知识，欢迎关注亿速云行业资讯频道，感谢各位的阅读！